[AIE] Supply vector implementation for FMUL widened from S16

Martien de Jong · Martien de Jong · commit 795096f834cf · 2025-11-28T10:46:19.000+01:00
This is a combine pattern that pushes S32 FNEGs through FPEXT
These FNEGs prevent standard InstrCombines, and appear in some kernels.
diff --git a/llvm/lib/Target/AIE/AIECombine.td b/llvm/lib/Target/AIE/AIECombine.td
@@ -195,6 +195,12 @@ def combine_narrow_zext_s20 : GICombineRule<
          [{ return matchNarrowZext(*${root}, MRI, Observer, ${matchinfo}); }]),
   (apply [{ Helper.applyBuildFnNoErase(*${root}, ${matchinfo}); }])>;
 
+def combine_widen_fmul : GICombineRule<
+  (defs root:$root, build_fn_matchinfo:$matchinfo),
+  (match (wip_match_opcode G_FMUL): $root,
+         [{ return matchWidenFMul(*${root}, MRI, Observer, ${matchinfo}); }]),
+  (apply [{ Helper.applyBuildFn(*${root}, ${matchinfo}); }])>;
+
 def concat_unmerge_matchdata : GIDefMatchData<"AIEConcatUnmergeCombineMatchData">;
 def combine_concat_unmerge_phis : GICombineRule <
   (defs root:$root, concat_unmerge_matchdata:$matchinfo),
@@ -299,6 +305,7 @@ def aie2p_additional_combines : GICombineGroup<[
   combine_vector_shuffle_to_extract_insert_elt,
   combine_vector_shuffle_concat_extracted_subvectors,
   combine_paired_extracts,
+  combine_widen_fmul,
   combine_vector_shuffle_to_extract_insert_elt_to_broadcast,
   combine_bitcast_unmerge_swap,
   combine_phi_bitcast_swap
diff --git a/llvm/lib/Target/AIE/AIECombinerHelper.cpp b/llvm/lib/Target/AIE/AIECombinerHelper.cpp
@@ -68,6 +68,16 @@ cl::opt<bool> MemsetOptimizations(
 
 namespace {
 
+static constexpr const LLT S8 = LLT::scalar(8);
+static constexpr const LLT S16 = LLT::scalar(16);
+static constexpr const LLT S32 = LLT::scalar(32);
+static constexpr const LLT V32S16 = LLT::fixed_vector(32, 16);
+static constexpr const LLT V32S32 = LLT::fixed_vector(32, 32);
+
+const llvm::AIEBaseInstrInfo &getAIETII(MachineIRBuilder &B) {
+  return static_cast<const AIEBaseInstrInfo &>(B.getTII());
+}
+
 bool isGenericExtractOpcode(unsigned Opc, const AIEBaseInstrInfo &TII) {
   // Check if it's either SEXT or ZEXT extract
   const unsigned ExtractSextOpc = TII.getGenericExtractVectorEltOpcode(true);
@@ -78,10 +88,22 @@ bool isGenericExtractOpcode(unsigned Opc, const AIEBaseInstrInfo &TII) {
   return Opc == ExtractZextOpc;
 }
 
-} // namespace
+Register buildScalarAsVector(MachineIRBuilder &B, Register Src, LLT VecTy) {
+  auto *MRI = B.getMRI();
+  if (MRI->getType(Src) != S32) {
+    Src = B.buildAnyExt(S32, Src).getReg(0);
+  }
+  const AIEBaseInstrInfo &TII = getAIETII(B);
+  const Register IdxReg = B.buildConstant(S32, 0).getReg(0);
+  const Register UndefVec = B.buildUndef(VecTy).getReg(0);
+  const unsigned InsertEltOpc = TII.getGenericInsertVectorEltOpcode();
+  Register Vector =
+      B.buildInstr(InsertEltOpc, {VecTy}, {UndefVec, Src, IdxReg}).getReg(0);
+
+  return Vector;
+}
 
-static unsigned getNumMaskUndefs(const ArrayRef<int> &Mask,
-                                 unsigned StartIndex) {
+unsigned getNumMaskUndefs(const ArrayRef<int> &Mask, unsigned StartIndex) {
   unsigned Count = 0;
   for (unsigned I = StartIndex; I < Mask.size(); ++I) {
     if (Mask[I] == -1) {
@@ -91,6 +113,8 @@ static unsigned getNumMaskUndefs(const ArrayRef<int> &Mask,
   return Count;
 }
 
+} // namespace
+
 bool MaskMatch::isValidMask(const ArrayRef<int> Mask) const {
   for (unsigned Idx = 0; Idx < Mask.size(); ++Idx) {
     if (Mask[Idx] == -1)
@@ -1069,8 +1093,6 @@ bool llvm::matchExtractVecEltAndExt(
   assert(MI.getOpcode() == TargetOpcode::G_EXTRACT_VECTOR_ELT &&
          "Expected a extract_vector_elt");
   Register DstReg = MI.getOperand(0).getReg();
-  const LLT S8 = LLT::scalar(8);
-  const LLT S16 = LLT::scalar(16);
   LLT SrcVecTy = MRI.getType(MI.getOperand(1).getReg());
   // Extracts from vectors <= 64-bits are lowered to bit-arithmetic in
   // legalization
@@ -3534,6 +3556,79 @@ bool llvm::matchNarrowZext(MachineInstr &MI, MachineRegisterInfo &MRI,
   return false;
 }
 
+namespace {
+// We match widenings from 16 bit, with possible negations on top.
+// Negations commute with conversions and multiplications. We keep track of the
+// total number of negations modulo two.
+class ExtendOperand {
+public:
+  Register Source{};
+  bool Negate = false;
+  ExtendOperand operator-() { return {Source, !Negate}; }
+  operator bool() { return Source; }
+};
+
+ExtendOperand matchExtend(Register SrcReg, MachineRegisterInfo &MRI) {
+  const MachineInstr *SrcMI = MRI.getVRegDef(SrcReg);
+  if (SrcMI->getOpcode() == TargetOpcode::G_FPEXT) {
+    const Register HalfOp = SrcMI->getOperand(1).getReg();
+    if (MRI.getType(HalfOp) != S16) {
+      return {};
+    }
+    return {HalfOp, false};
+  }
+  if (SrcMI->getOpcode() == TargetOpcode::G_FNEG) {
+    return -matchExtend(SrcMI->getOperand(1).getReg(), MRI);
+  }
+  return {};
+}
+} // namespace
+
+bool llvm::matchWidenFMul(MachineInstr &FMul, MachineRegisterInfo &MRI,
+                          GISelChangeObserver &Observer, BuildFnTy &MatchInfo) {
+  if (!FMul.getMF()->getTarget().getTargetTriple().isAIE2P()) {
+    return false;
+  }
+
+  ExtendOperand Lft = matchExtend(FMul.getOperand(1).getReg(), MRI);
+  if (!Lft) {
+    return false;
+  }
+  ExtendOperand Rgt = matchExtend(FMul.getOperand(2).getReg(), MRI);
+  if (!Rgt) {
+    return false;
+  }
+
+  const Register DstReg = FMul.getOperand(0).getReg();
+  const bool Negate = Lft.Negate ^ Rgt.Negate;
+
+  // We build extract(mul(tovector(Lft), tovector(Rgt), 0);
+  MatchInfo = [=, &MRI](MachineIRBuilder &B) {
+    auto &TII = getAIETII(B);
+    Register LSrc = Lft.Source;
+    if (Negate) {
+      LSrc = MRI.createGenericVirtualRegister(S16);
+      B.buildInstr(TargetOpcode::G_FNEG, {LSrc}, {Lft.Source});
+    }
+    const LLT VecTy = V32S16;
+    const LLT AccTy = V32S32;
+    const Register VLhs = buildScalarAsVector(B, LSrc, VecTy);
+    const Register VRhs = buildScalarAsVector(B, Rgt.Source, VecTy);
+    const Register Acc = MRI.createGenericVirtualRegister(AccTy);
+    const Register Mode = B.buildConstant(S32, 60).getReg(0);
+    B.buildIntrinsic(Intrinsic::aie2p_I512_I512_ACC1024_bf_mul_conf, Acc, true,
+                     false)
+        .addUse(VLhs)
+        .addUse(VRhs)
+        .addUse(Mode);
+    const Register Index = B.buildConstant(S32, 0).getReg(0);
+    B.buildInstr(TII.getGenericExtractVectorEltOpcode(/*SignExt*/ true),
+                 {DstReg}, {Acc, Index});
+  };
+
+  return true;
+}
+
 // Fold G_TRUNC (G_[ANY|S|Z]EXT x) -> X or (G_[ANY|S|Z]EXT x) or (G_TRUNC x).
 bool llvm::matchCombineExtAndTrunc(MachineInstr &MI, MachineRegisterInfo &MRI,
                                    BuildFnTy &MatchInfo) {
diff --git a/llvm/lib/Target/AIE/AIECombinerHelper.h b/llvm/lib/Target/AIE/AIECombinerHelper.h
@@ -272,6 +272,9 @@ bool matchNarrowTruncConstant(MachineInstr &MI, MachineRegisterInfo &MRI,
 bool matchNarrowZext(MachineInstr &MI, MachineRegisterInfo &MRI,
                      GISelChangeObserver &Observer, BuildFnTy &MatchInfo);
 
+bool matchWidenFMul(MachineInstr &MI, MachineRegisterInfo &MRI,
+                    GISelChangeObserver &Observer, BuildFnTy &MatchInfo);
+
 bool matchCombineExtAndTrunc(MachineInstr &MI, MachineRegisterInfo &MRI,
                              BuildFnTy &MatchInfo);
 
diff --git a/llvm/lib/Target/AIE/AIELegalizerHelper.cpp b/llvm/lib/Target/AIE/AIELegalizerHelper.cpp
@@ -1405,7 +1405,7 @@ bool AIELegalizerHelper::legalizeG_FMUL(LegalizerHelper &Helper,
   MachineRegisterInfo &MRI = *MIRBuilder.getMRI();
 
   const Register DstReg = MI.getOperand(0).getReg();
-  assert(MRI.getType(DstReg) == LLT::scalar(16) &&
+  assert(MRI.getType(DstReg) == S16 &&
          "Expected bfloat16 type in custom legalization.");
 
   Register SrcLHS = MI.getOperand(1).getReg();
diff --git a/llvm/test/CodeGen/AIE/aie2p/GlobalIsel/prelegalizercombiner-widen-fmul16.mir b/llvm/test/CodeGen/AIE/aie2p/GlobalIsel/prelegalizercombiner-widen-fmul16.mir
@@ -0,0 +1,148 @@
+# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 4
+# This file is licensed under the Apache License v2.0 with LLVM Exceptions.
+# See https://llvm.org/LICENSE.txt for license information.
+# SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+#
+# (c) Copyright 2025 Advanced Micro Devices, Inc. or its affiliates
+
+# RUN: llc -mtriple aie2p -run-pass=aie2p-prelegalizer-combiner %s -verify-machineinstrs -o - | FileCheck %s
+
+---
+name: test_widened_fmul_s16
+body: |
+  bb.0:
+    liveins: $r1, $r2, $p0
+    ; CHECK-LABEL: name: test_widened_fmul_s16
+    ; CHECK: liveins: $r1, $r2, $p0
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r1
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r2
+    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[DEF:%[0-9]+]]:_(<32 x s16>) = G_IMPLICIT_DEF
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 60
+    ; CHECK-NEXT: [[INT:%[0-9]+]]:_(<32 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.aie2p.I512.I512.ACC1024.bf.mul.conf), [[AIE_INSERT_VECTOR_ELT]](<32 x s16>), [[AIE_INSERT_VECTOR_ELT1]](<32 x s16>), [[C1]](s32)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(<16 x s32>), [[UV1:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[INT]](<32 x s32>)
+    ; CHECK-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV]](<16 x s32>), [[C]](s32)
+    ; CHECK-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
+    ; CHECK-NEXT: PseudoRET implicit $lr, implicit $r0
+    %0:_(s32) = COPY $r1
+    %1:_(s32) = COPY $r2
+    %2:_(s16) = G_TRUNC %0(s32)
+    %3:_(s16) = G_TRUNC %1(s32)
+    %4:_(s32) = G_FPEXT %2(s16)
+    %5:_(s32) = G_FPEXT %3(s16)
+    %6:_(s32) = G_FMUL %4, %5
+    $r0 = COPY %6(s32)
+    PseudoRET implicit $lr, implicit $r0
+...
+
+---
+name: test_widened_fmul_negl_s16
+body: |
+  bb.0:
+    liveins: $r1, $r2, $p0
+    ; CHECK-LABEL: name: test_widened_fmul_negl_s16
+    ; CHECK: liveins: $r1, $r2, $p0
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r1
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r2
+    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
+    ; CHECK-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
+    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FNEG]](s16)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[DEF:%[0-9]+]]:_(<32 x s16>) = G_IMPLICIT_DEF
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[ANYEXT]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 60
+    ; CHECK-NEXT: [[INT:%[0-9]+]]:_(<32 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.aie2p.I512.I512.ACC1024.bf.mul.conf), [[AIE_INSERT_VECTOR_ELT]](<32 x s16>), [[AIE_INSERT_VECTOR_ELT1]](<32 x s16>), [[C1]](s32)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(<16 x s32>), [[UV1:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[INT]](<32 x s32>)
+    ; CHECK-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV]](<16 x s32>), [[C]](s32)
+    ; CHECK-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
+    ; CHECK-NEXT: PseudoRET implicit $lr, implicit $r0
+    %0:_(s32) = COPY $r1
+    %1:_(s32) = COPY $r2
+    %2:_(s16) = G_TRUNC %0(s32)
+    %3:_(s16) = G_TRUNC %1(s32)
+    %4:_(s32) = G_FPEXT %2(s16)
+    %5:_(s32) = G_FPEXT %3(s16)
+    %6:_(s32) = G_FNEG %4(s32)
+    %8:_(s32) = G_FMUL %6, %5
+    $r0 = COPY %8(s32)
+    PseudoRET implicit $lr, implicit $r0
+...
+---
+name: test_widened_fmul_negr_s16
+body: |
+  bb.0:
+    liveins: $r1, $r2, $p0
+    ; CHECK-LABEL: name: test_widened_fmul_negr_s16
+    ; CHECK: liveins: $r1, $r2, $p0
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r1
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r2
+    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
+    ; CHECK-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
+    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FNEG]](s16)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[DEF:%[0-9]+]]:_(<32 x s16>) = G_IMPLICIT_DEF
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[ANYEXT]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 60
+    ; CHECK-NEXT: [[INT:%[0-9]+]]:_(<32 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.aie2p.I512.I512.ACC1024.bf.mul.conf), [[AIE_INSERT_VECTOR_ELT]](<32 x s16>), [[AIE_INSERT_VECTOR_ELT1]](<32 x s16>), [[C1]](s32)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(<16 x s32>), [[UV1:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[INT]](<32 x s32>)
+    ; CHECK-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV]](<16 x s32>), [[C]](s32)
+    ; CHECK-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
+    ; CHECK-NEXT: PseudoRET implicit $lr, implicit $r0
+    %0:_(s32) = COPY $r1
+    %1:_(s32) = COPY $r2
+    %2:_(s16) = G_TRUNC %0(s32)
+    %3:_(s16) = G_TRUNC %1(s32)
+    %4:_(s32) = G_FPEXT %2(s16)
+    %5:_(s32) = G_FPEXT %3(s16)
+    %6:_(s32) = G_FNEG %5(s32)
+    %8:_(s32) = G_FMUL %4, %6
+    $r0 = COPY %8(s32)
+    PseudoRET implicit $lr, implicit $r0
+...
+---
+name: test_widened_fmul_negboth_s16
+body: |
+  bb.0:
+    liveins: $r1, $r2, $p0
+    ; CHECK-LABEL: name: test_widened_fmul_negboth_s16
+    ; CHECK: liveins: $r1, $r2, $p0
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r1
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r2
+    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[DEF:%[0-9]+]]:_(<32 x s16>) = G_IMPLICIT_DEF
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<32 x s16>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 60
+    ; CHECK-NEXT: [[INT:%[0-9]+]]:_(<32 x s32>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.aie2p.I512.I512.ACC1024.bf.mul.conf), [[AIE_INSERT_VECTOR_ELT]](<32 x s16>), [[AIE_INSERT_VECTOR_ELT1]](<32 x s16>), [[C1]](s32)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(<16 x s32>), [[UV1:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[INT]](<32 x s32>)
+    ; CHECK-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV]](<16 x s32>), [[C]](s32)
+    ; CHECK-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
+    ; CHECK-NEXT: PseudoRET implicit $lr, implicit $r0
+    %0:_(s32) = COPY $r1
+    %1:_(s32) = COPY $r2
+    %2:_(s16) = G_TRUNC %0(s32)
+    %3:_(s16) = G_TRUNC %1(s32)
+    %4:_(s32) = G_FPEXT %2(s16)
+    %5:_(s32) = G_FPEXT %3(s16)
+    %6:_(s32) = G_FNEG %4(s32)
+    %7:_(s32) = G_FNEG %5(s32)
+    %8:_(s32) = G_FMUL %6, %7
+    $r0 = COPY %8(s32)
+    PseudoRET implicit $lr, implicit $r0
+...
+
+
+
+
+
+
+
+