Xilinx
diff --git a/‎llvm/lib/Target/AIE/AIE2LegalizerInfo.cpp‎
Lines changed: 3 additions & 2 deletions b/‎llvm/lib/Target/AIE/AIE2LegalizerInfo.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎llvm/lib/Target/AIE/AIECombine.td‎
Lines changed: 7 additions & 0 deletions b/‎llvm/lib/Target/AIE/AIECombine.td‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎llvm/lib/Target/AIE/AIECombinerHelper.cpp‎
Lines changed: 98 additions & 5 deletions b/‎llvm/lib/Target/AIE/AIECombinerHelper.cpp‎
Lines changed: 98 additions & 5 deletions
diff --git a/‎llvm/lib/Target/AIE/AIECombinerHelper.h‎
Lines changed: 4 additions & 0 deletions b/‎llvm/lib/Target/AIE/AIECombinerHelper.h‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎llvm/lib/Target/AIE/AIELegalizerHelper.cpp‎
Lines changed: 12 additions & 24 deletions b/‎llvm/lib/Target/AIE/AIELegalizerHelper.cpp‎
Lines changed: 12 additions & 24 deletions
diff --git a/‎llvm/lib/Target/AIE/AIELegalizerHelper.h‎
Lines changed: 1 addition & 1 deletion b/‎llvm/lib/Target/AIE/AIELegalizerHelper.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎llvm/lib/Target/AIE/aie2p/AIE2PLegalizerInfo.cpp‎
Lines changed: 3 additions & 2 deletions b/‎llvm/lib/Target/AIE/aie2p/AIE2PLegalizerInfo.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎llvm/test/CodeGen/AIE/GlobalISel/legalize-float-binop.mir‎
Lines changed: 48 additions & 28 deletions b/‎llvm/test/CodeGen/AIE/GlobalISel/legalize-float-binop.mir‎
Lines changed: 48 additions & 28 deletions
@@ -205,8 +205,9 @@ AIE2LegalizerInfo::AIE2LegalizerInfo(const AIE2Subtarget &ST) : AIEHelper(ST) {
 
   getActionDefinitionsBuilder({G_FADD, G_FSUB})
       .legalFor({V16S32})
-      .customFor({S16})
-      .libcallFor({S32, S64});
+      .clampScalar(0, S32, S64)
+      .customFor({S32})
+      .libcallFor({S64});
 
   getActionDefinitionsBuilder({G_FMUL, G_FDIV, G_FREM})
       .clampScalar(0, S32, S64)
 
@@ -195,6 +195,12 @@ def combine_narrow_zext_s20 : GICombineRule<
          [{ return matchNarrowZext(*${root}, MRI, Observer, ${matchinfo}); }]),
   (apply [{ Helper.applyBuildFnNoErase(*${root}, ${matchinfo}); }])>;
 
+def combine_widen_fmul : GICombineRule<
+  (defs root:$root, build_fn_matchinfo:$matchinfo),
+  (match (wip_match_opcode G_FMUL): $root,
+         [{ return matchWidenFMul(*${root}, MRI, Observer, ${matchinfo}); }]),
+  (apply [{ Helper.applyBuildFn(*${root}, ${matchinfo}); }])>;
+
 def concat_unmerge_matchdata : GIDefMatchData<"AIEConcatUnmergeCombineMatchData">;
 def combine_concat_unmerge_phis : GICombineRule <
   (defs root:$root, concat_unmerge_matchdata:$matchinfo),
@@ -299,6 +305,7 @@ def aie2p_additional_combines : GICombineGroup<[
   combine_vector_shuffle_to_extract_insert_elt,
   combine_vector_shuffle_concat_extracted_subvectors,
   combine_paired_extracts,
+  combine_widen_fmul,
   combine_vector_shuffle_to_extract_insert_elt_to_broadcast,
   combine_bitcast_unmerge_swap,
   combine_phi_bitcast_swap
 
@@ -68,6 +68,14 @@ cl::opt<bool> MemsetOptimizations(
 
 namespace {
 
+static constexpr const LLT S8 = LLT::scalar(8);
+static constexpr const LLT S16 = LLT::scalar(16);
+static constexpr const LLT S32 = LLT::scalar(32);
+
+const llvm::AIEBaseInstrInfo &getAIETII(MachineIRBuilder &B) {
+  return static_cast<const AIEBaseInstrInfo &>(B.getTII());
+}
+
 bool isGenericExtractOpcode(unsigned Opc, const AIEBaseInstrInfo &TII) {
   // Check if it's either SEXT or ZEXT extract
   const unsigned ExtractSextOpc = TII.getGenericExtractVectorEltOpcode(true);
@@ -78,10 +86,22 @@ bool isGenericExtractOpcode(unsigned Opc, const AIEBaseInstrInfo &TII) {
   return Opc == ExtractZextOpc;
 }
 
-} // namespace
+Register buildScalarAsVector(MachineIRBuilder &B, Register Src, LLT VecTy) {
+  auto *MRI = B.getMRI();
+  if (MRI->getType(Src) != S32) {
+    Src = B.buildAnyExt(S32, Src).getReg(0);
+  }
+  const AIEBaseInstrInfo &TII = getAIETII(B);
+  const Register IdxReg = B.buildConstant(S32, 0).getReg(0);
+  const Register UndefVec = B.buildUndef(VecTy).getReg(0);
+  const unsigned InsertEltOpc = TII.getGenericInsertVectorEltOpcode();
+  Register Vector =
+      B.buildInstr(InsertEltOpc, {VecTy}, {UndefVec, Src, IdxReg}).getReg(0);
+
+  return Vector;
+}
 
-static unsigned getNumMaskUndefs(const ArrayRef<int> &Mask,
-                                 unsigned StartIndex) {
+unsigned getNumMaskUndefs(const ArrayRef<int> &Mask, unsigned StartIndex) {
   unsigned Count = 0;
   for (unsigned I = StartIndex; I < Mask.size(); ++I) {
     if (Mask[I] == -1) {
@@ -91,6 +111,8 @@ static unsigned getNumMaskUndefs(const ArrayRef<int> &Mask,
   return Count;
 }
 
+} // namespace
+
 bool MaskMatch::isValidMask(const ArrayRef<int> Mask) const {
   for (unsigned Idx = 0; Idx < Mask.size(); ++Idx) {
     if (Mask[Idx] == -1)
@@ -1069,8 +1091,6 @@ bool llvm::matchExtractVecEltAndExt(
   assert(MI.getOpcode() == TargetOpcode::G_EXTRACT_VECTOR_ELT &&
          "Expected a extract_vector_elt");
   Register DstReg = MI.getOperand(0).getReg();
-  const LLT S8 = LLT::scalar(8);
-  const LLT S16 = LLT::scalar(16);
   LLT SrcVecTy = MRI.getType(MI.getOperand(1).getReg());
   // Extracts from vectors <= 64-bits are lowered to bit-arithmetic in
   // legalization
@@ -3534,6 +3554,79 @@ bool llvm::matchNarrowZext(MachineInstr &MI, MachineRegisterInfo &MRI,
   return false;
 }
 
+namespace {
+// We match widenings from 16 bit, with possible negations on top.
+// Negations commute with conversions and multiplications. We keep track of the
+// total number of negations modulo two.
+class ExtendOperand {
+public:
+  Register Source{};
+  bool Negate = false;
+  ExtendOperand operator-() { return {Source, !Negate}; }
+  operator bool() { return Source; }
+};
+
+ExtendOperand matchExtend(Register SrcReg, MachineRegisterInfo &MRI) {
+  const MachineInstr *SrcMI = MRI.getVRegDef(SrcReg);
+  if (SrcMI->getOpcode() == TargetOpcode::G_FPEXT) {
+    const Register HalfOp = SrcMI->getOperand(1).getReg();
+    if (MRI.getType(HalfOp) != S16) {
+      return {};
+    }
+    return {HalfOp, false};
+  }
+  if (SrcMI->getOpcode() == TargetOpcode::G_FNEG) {
+    return -matchExtend(SrcMI->getOperand(1).getReg(), MRI);
+  }
+  return {};
+}
+} // namespace
+
+bool llvm::matchWidenFMul(MachineInstr &FMul, MachineRegisterInfo &MRI,
+                          GISelChangeObserver &Observer, BuildFnTy &MatchInfo) {
+  if (!FMul.getMF()->getTarget().getTargetTriple().isAIE2P()) {
+    return false;
+  }
+
+  ExtendOperand Lft = matchExtend(FMul.getOperand(1).getReg(), MRI);
+  if (!Lft) {
+    return false;
+  }
+  ExtendOperand Rgt = matchExtend(FMul.getOperand(2).getReg(), MRI);
+  if (!Rgt) {
+    return false;
+  }
+
+  const LLT VecTy = LLT::fixed_vector(32, S16);
+  const LLT AccTy = LLT::fixed_vector(32, S32);
+  const Register DstReg = FMul.getOperand(0).getReg();
+  bool Negate = Lft.Negate ^ Rgt.Negate;
+
+  // We build extract(mul(broadcast(Lft), broadcast(Rgt), 0);
+  MatchInfo = [=, &MRI](MachineIRBuilder &B) {
+    auto &TII = getAIETII(B);
+    Register LSrc = Lft.Source;
+    if (Negate) {
+      LSrc = MRI.createGenericVirtualRegister(S16);
+      B.buildInstr(TargetOpcode::G_FNEG, {LSrc}, {Lft.Source});
+    }
+    const Register VLhs = buildScalarAsVector(B, LSrc, VecTy);
+    const Register VRhs = buildScalarAsVector(B, Rgt.Source, VecTy);
+    const Register Acc = MRI.createGenericVirtualRegister(AccTy);
+    const Register Mode = B.buildConstant(S32, 60).getReg(0);
+    B.buildIntrinsic(Intrinsic::aie2p_I512_I512_ACC1024_bf_mul_conf, Acc, true,
+                     false)
+        .addUse(VLhs)
+        .addUse(VRhs)
+        .addUse(Mode);
+    const Register Index = B.buildConstant(S32, 0).getReg(0);
+    B.buildInstr(TII.getGenericExtractVectorEltOpcode(/*SignExt*/ true),
+                 {DstReg}, {Acc, Index});
+  };
+
+  return true;
+}
+
 // Fold G_TRUNC (G_[ANY|S|Z]EXT x) -> X or (G_[ANY|S|Z]EXT x) or (G_TRUNC x).
 bool llvm::matchCombineExtAndTrunc(MachineInstr &MI, MachineRegisterInfo &MRI,
                                    BuildFnTy &MatchInfo) {
 
@@ -18,6 +18,7 @@
 namespace llvm {
 
 struct AIEBaseInstrInfo;
+class MachineIRBuilder;
 
 struct ShuffleMaskValidity {
   bool IsValid;
@@ -272,6 +273,9 @@ bool matchNarrowTruncConstant(MachineInstr &MI, MachineRegisterInfo &MRI,
 bool matchNarrowZext(MachineInstr &MI, MachineRegisterInfo &MRI,
                      GISelChangeObserver &Observer, BuildFnTy &MatchInfo);
 
+bool matchWidenFMul(MachineInstr &MI, MachineRegisterInfo &MRI,
+                    GISelChangeObserver &Observer, BuildFnTy &MatchInfo);
+
 bool matchCombineExtAndTrunc(MachineInstr &MI, MachineRegisterInfo &MRI,
                              BuildFnTy &MatchInfo);
 
 
@@ -23,6 +23,7 @@
 #include "llvm/CodeGen/MachineInstrBuilder.h"
 #include "llvm/CodeGen/MachineRegisterInfo.h"
 #include "llvm/CodeGen/TargetOpcodes.h"
+#include "llvm/CodeGenTypes/MachineValueType.h"
 #include "llvm/IR/IntrinsicsAIE2.h"
 #include "llvm/IR/IntrinsicsAIE2P.h"
 #include "llvm/IR/RuntimeLibcalls.h"
@@ -1405,7 +1406,7 @@ bool AIELegalizerHelper::legalizeG_FMUL(LegalizerHelper &Helper,
   MachineRegisterInfo &MRI = *MIRBuilder.getMRI();
 
   const Register DstReg = MI.getOperand(0).getReg();
-  assert(MRI.getType(DstReg) == LLT::scalar(16) &&
+  assert(MRI.getType(DstReg) == S16 &&
          "Expected bfloat16 type in custom legalization.");
 
   Register SrcLHS = MI.getOperand(1).getReg();
@@ -1441,19 +1442,19 @@ bool AIELegalizerHelper::legalizeG_FMUL(LegalizerHelper &Helper,
 
 bool AIELegalizerHelper::legalizeG_FADD_G_FSUB(LegalizerHelper &Helper,
                                                MachineInstr &MI) const {
+
   MachineIRBuilder &MIRBuilder = Helper.MIRBuilder;
   MachineRegisterInfo &MRI = *MIRBuilder.getMRI();
-
   const Register DstReg = MI.getOperand(0).getReg();
+
   Register SrcLHS = MI.getOperand(1).getReg();
   Register SrcRHS = MI.getOperand(2).getReg();
 
-  assert(MRI.getType(DstReg) == LLT::scalar(16) &&
-         "Expected bfloat16 type in custom legalization.");
+  assert(MRI.getType(DstReg) == S32 &&
+         "Expected float32 type in custom legalization.");
 
   const LLT InsertVecLLT = V16FP32;
-  SrcLHS = MIRBuilder.buildFPExt(S32, SrcLHS).getReg(0);
-  SrcRHS = MIRBuilder.buildFPExt(S32, SrcRHS).getReg(0);
+
   const Register IdxReg = MIRBuilder.buildConstant(S32, 0).getReg(0);
   const Register UndefVec = MIRBuilder.buildUndef(InsertVecLLT).getReg(0);
 
@@ -1479,29 +1480,16 @@ bool AIELegalizerHelper::legalizeG_FADD_G_FSUB(LegalizerHelper &Helper,
           .getReg(0);
 
   if (ST.isAIE2()) {
-    Res = MIRBuilder.buildBitcast(V8ACC64, Res).getReg(0);
+    if (MRI.getType(Res) != V16S32) {
+      Res = MIRBuilder.buildBitcast(V16S32, Res).getReg(0);
+    }
   } else if (ST.isAIE2P()) {
-    Res = MIRBuilder.buildUnmerge(V32ACC32, Res).getReg(0);
-  }
-
-  const int VecSize = MRI.getType(Res).getSizeInBits();
-  const LLT DstLLT = ST.isAIE2P() ? V32BF16 : V16BF16;
-  Res = MIRBuilder
-            .buildIntrinsic(getFpTrunc32ToBF16IntrID(ST, VecSize), {DstLLT},
-                            true, false)
-            .addUse(Res)
-            .getReg(0);
-
-  if (ST.isAIE2()) {
-    Res = emitPadUndefVector(MRI, MIRBuilder, V32BF16, Res);
+    Res = MIRBuilder.buildUnmerge(V16S32, Res).getReg(0);
   }
 
   const unsigned ExtractEltOpc =
       ST.getInstrInfo()->getGenericExtractVectorEltOpcode(/*SignExt*/ true);
-  Res = MIRBuilder.buildInstr(ExtractEltOpc, {S32}, {Res, IdxReg}).getReg(0);
-  Res = MIRBuilder.buildAssertInstr(TargetOpcode::G_ASSERT_SEXT, {S32}, Res, 16)
-            .getReg(0);
-  MIRBuilder.buildTrunc(DstReg, Res);
+  MIRBuilder.buildInstr(ExtractEltOpc, {DstReg}, {Res, IdxReg});
 
   MI.eraseFromParent();
   return true;
 
@@ -27,7 +27,7 @@ class GICmp;
 
 class AIELegalizerHelper {
   const AIEBaseSubtarget &ST;
-
+  const LLT S16 = LLT::scalar(16);
   const LLT S32 = LLT::scalar(32);
   const LLT V2S16 = LLT::fixed_vector(2, 16);
   const LLT V2S32 = LLT::fixed_vector(2, 32);
 
@@ -246,8 +246,9 @@ AIE2PLegalizerInfo::AIE2PLegalizerInfo(const AIE2PSubtarget &ST)
 
   getActionDefinitionsBuilder({G_FADD, G_FSUB})
       .legalFor({AccV64S32})
-      .customFor({S16})
-      .libcallFor({S32, S64});
+      .clampScalar(0, S32, S64)
+      .customFor({S32})
+      .libcallFor({S64});
 
   getActionDefinitionsBuilder({G_FDIV, G_FREM})
       .clampScalar(0, S32, S64)
 
@@ -296,27 +296,37 @@ body:             |
     ; AIE2-NEXT: {{  $}}
     ; AIE2-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r6
     ; AIE2-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r7
-    ; AIE2-NEXT: ADJCALLSTACKUP 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2-NEXT: $r1 = COPY [[COPY]](s32)
-    ; AIE2-NEXT: $r2 = COPY [[COPY1]](s32)
-    ; AIE2-NEXT: PseudoJL &__addsf3, csr_aie2, implicit-def $lr, implicit $r1, implicit $r2, implicit-def $r0
-    ; AIE2-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $r0
-    ; AIE2-NEXT: ADJCALLSTACKDOWN 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2-NEXT: $r0 = COPY [[COPY2]](s32)
+    ; AIE2-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; AIE2-NEXT: [[DEF:%[0-9]+]]:_(<16 x s32>) = G_IMPLICIT_DEF
+    ; AIE2-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; AIE2-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; AIE2-NEXT: [[FADD:%[0-9]+]]:_(<16 x s32>) = G_FADD [[AIE_INSERT_VECTOR_ELT]], [[AIE_INSERT_VECTOR_ELT1]]
+    ; AIE2-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[FADD]](<16 x s32>), [[C]](s32)
+    ; AIE2-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
     ; AIE2-NEXT: PseudoRET implicit $lr, implicit $r0
     ;
     ; AIE2P-LABEL: name: fadd_float
     ; AIE2P: liveins: $r6, $r7
     ; AIE2P-NEXT: {{  $}}
     ; AIE2P-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r6
     ; AIE2P-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r7
-    ; AIE2P-NEXT: ADJCALLSTACKUP 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2P-NEXT: $r1 = COPY [[COPY]](s32)
-    ; AIE2P-NEXT: $r2 = COPY [[COPY1]](s32)
-    ; AIE2P-NEXT: PseudoJL &__addsf3, csr_aie2p, implicit-def $lr, implicit $r1, implicit $r2, implicit-def $r0
-    ; AIE2P-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $r0
-    ; AIE2P-NEXT: ADJCALLSTACKDOWN 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2P-NEXT: $r0 = COPY [[COPY2]](s32)
+    ; AIE2P-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; AIE2P-NEXT: [[DEF:%[0-9]+]]:_(<16 x s32>) = G_IMPLICIT_DEF
+    ; AIE2P-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; AIE2P-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; AIE2P-NEXT: [[COPY2:%[0-9]+]]:_(<16 x s32>) = COPY [[DEF]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[AIE_INSERT_VECTOR_ELT]](<16 x s32>), [[COPY2]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS1:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[COPY2]](<16 x s32>), [[COPY2]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS2:%[0-9]+]]:_(<64 x s32>) = G_CONCAT_VECTORS [[CONCAT_VECTORS]](<32 x s32>), [[CONCAT_VECTORS1]](<32 x s32>)
+    ; AIE2P-NEXT: [[COPY3:%[0-9]+]]:_(<16 x s32>) = COPY [[DEF]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS3:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[AIE_INSERT_VECTOR_ELT1]](<16 x s32>), [[COPY3]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS4:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[COPY3]](<16 x s32>), [[COPY3]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS5:%[0-9]+]]:_(<64 x s32>) = G_CONCAT_VECTORS [[CONCAT_VECTORS3]](<32 x s32>), [[CONCAT_VECTORS4]](<32 x s32>)
+    ; AIE2P-NEXT: [[FADD:%[0-9]+]]:_(<64 x s32>) = G_FADD [[CONCAT_VECTORS2]], [[CONCAT_VECTORS5]]
+    ; AIE2P-NEXT: [[UV:%[0-9]+]]:_(<32 x s32>), [[UV1:%[0-9]+]]:_(<32 x s32>) = G_UNMERGE_VALUES [[FADD]](<64 x s32>)
+    ; AIE2P-NEXT: [[UV2:%[0-9]+]]:_(<16 x s32>), [[UV3:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[UV]](<32 x s32>)
+    ; AIE2P-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV2]](<16 x s32>), [[C]](s32)
+    ; AIE2P-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
     ; AIE2P-NEXT: PseudoRET implicit $lr, implicit $r0
     %1:_(s32) = COPY $r6
     %2:_(s32) = COPY $r7
@@ -427,27 +437,37 @@ body:             |
     ; AIE2-NEXT: {{  $}}
     ; AIE2-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r6
     ; AIE2-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r7
-    ; AIE2-NEXT: ADJCALLSTACKUP 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2-NEXT: $r1 = COPY [[COPY]](s32)
-    ; AIE2-NEXT: $r2 = COPY [[COPY1]](s32)
-    ; AIE2-NEXT: PseudoJL &__subsf3, csr_aie2, implicit-def $lr, implicit $r1, implicit $r2, implicit-def $r0
-    ; AIE2-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $r0
-    ; AIE2-NEXT: ADJCALLSTACKDOWN 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2-NEXT: $r0 = COPY [[COPY2]](s32)
+    ; AIE2-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; AIE2-NEXT: [[DEF:%[0-9]+]]:_(<16 x s32>) = G_IMPLICIT_DEF
+    ; AIE2-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; AIE2-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; AIE2-NEXT: [[FSUB:%[0-9]+]]:_(<16 x s32>) = G_FSUB [[AIE_INSERT_VECTOR_ELT]], [[AIE_INSERT_VECTOR_ELT1]]
+    ; AIE2-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[FSUB]](<16 x s32>), [[C]](s32)
+    ; AIE2-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
     ; AIE2-NEXT: PseudoRET implicit $lr, implicit $r0
     ;
     ; AIE2P-LABEL: name: fsub_float
     ; AIE2P: liveins: $r6, $r7
     ; AIE2P-NEXT: {{  $}}
     ; AIE2P-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $r6
     ; AIE2P-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $r7
-    ; AIE2P-NEXT: ADJCALLSTACKUP 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2P-NEXT: $r1 = COPY [[COPY]](s32)
-    ; AIE2P-NEXT: $r2 = COPY [[COPY1]](s32)
-    ; AIE2P-NEXT: PseudoJL &__subsf3, csr_aie2p, implicit-def $lr, implicit $r1, implicit $r2, implicit-def $r0
-    ; AIE2P-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $r0
-    ; AIE2P-NEXT: ADJCALLSTACKDOWN 0, 0, implicit-def $sp, implicit $sp
-    ; AIE2P-NEXT: $r0 = COPY [[COPY2]](s32)
+    ; AIE2P-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+    ; AIE2P-NEXT: [[DEF:%[0-9]+]]:_(<16 x s32>) = G_IMPLICIT_DEF
+    ; AIE2P-NEXT: [[AIE_INSERT_VECTOR_ELT:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY]](s32), [[C]](s32)
+    ; AIE2P-NEXT: [[AIE_INSERT_VECTOR_ELT1:%[0-9]+]]:_(<16 x s32>) = G_AIE_INSERT_VECTOR_ELT [[DEF]], [[COPY1]](s32), [[C]](s32)
+    ; AIE2P-NEXT: [[COPY2:%[0-9]+]]:_(<16 x s32>) = COPY [[DEF]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[AIE_INSERT_VECTOR_ELT]](<16 x s32>), [[COPY2]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS1:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[COPY2]](<16 x s32>), [[COPY2]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS2:%[0-9]+]]:_(<64 x s32>) = G_CONCAT_VECTORS [[CONCAT_VECTORS]](<32 x s32>), [[CONCAT_VECTORS1]](<32 x s32>)
+    ; AIE2P-NEXT: [[COPY3:%[0-9]+]]:_(<16 x s32>) = COPY [[DEF]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS3:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[AIE_INSERT_VECTOR_ELT1]](<16 x s32>), [[COPY3]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS4:%[0-9]+]]:_(<32 x s32>) = G_CONCAT_VECTORS [[COPY3]](<16 x s32>), [[COPY3]](<16 x s32>)
+    ; AIE2P-NEXT: [[CONCAT_VECTORS5:%[0-9]+]]:_(<64 x s32>) = G_CONCAT_VECTORS [[CONCAT_VECTORS3]](<32 x s32>), [[CONCAT_VECTORS4]](<32 x s32>)
+    ; AIE2P-NEXT: [[FSUB:%[0-9]+]]:_(<64 x s32>) = G_FSUB [[CONCAT_VECTORS2]], [[CONCAT_VECTORS5]]
+    ; AIE2P-NEXT: [[UV:%[0-9]+]]:_(<32 x s32>), [[UV1:%[0-9]+]]:_(<32 x s32>) = G_UNMERGE_VALUES [[FSUB]](<64 x s32>)
+    ; AIE2P-NEXT: [[UV2:%[0-9]+]]:_(<16 x s32>), [[UV3:%[0-9]+]]:_(<16 x s32>) = G_UNMERGE_VALUES [[UV]](<32 x s32>)
+    ; AIE2P-NEXT: [[AIE_SEXT_EXTRACT_VECTOR_ELT:%[0-9]+]]:_(s32) = G_AIE_SEXT_EXTRACT_VECTOR_ELT [[UV2]](<16 x s32>), [[C]](s32)
+    ; AIE2P-NEXT: $r0 = COPY [[AIE_SEXT_EXTRACT_VECTOR_ELT]](s32)
     ; AIE2P-NEXT: PseudoRET implicit $lr, implicit $r0
     %1:_(s32) = COPY $r6
     %2:_(s32) = COPY $r7