Stick progress logging in PositiveSampleProducer

IoannisPanagiotas · vnickolov · commit 00a152ac07d5 · 2025-09-15T07:49:35.000+01:00
diff --git a/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/Node2VecModel.java b/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/Node2VecModel.java
@@ -301,7 +301,7 @@ List<TrainingTask> createTrainingTasks(float learningRate, AtomicInteger taskInd
             partition -> {
                 var taskId = taskIndex.getAndIncrement();
                 var taskRandomSeed = randomSeed + taskId;
-                var positiveSampleProducer = createPositiveSampleProducer(partition, taskRandomSeed);
+                var positiveSampleProducer = createPositiveSampleProducer(partition, taskRandomSeed, progressTracker);
                 var negativeSampleProducer = createNegativeSampleProducer(taskRandomSeed);
                 return new TrainingTask(
                     centerEmbeddings,
@@ -310,8 +310,7 @@ List<TrainingTask> createTrainingTasks(float learningRate, AtomicInteger taskInd
                     negativeSampleProducer,
                     learningRate,
                     negativeSamplingRate,
-                    embeddingDimension,
-                    progressTracker
+                    embeddingDimension
                 );
             }
         );
@@ -326,13 +325,15 @@ NegativeSampleProducer createNegativeSampleProducer(long randomSeed) {
 
     PositiveSampleProducer createPositiveSampleProducer(
         DegreePartition partition,
-        long randomSeed
+        long randomSeed,
+        ProgressTracker progressTracker
     ) {
         return new PositiveSampleProducer(
             walks.iterator(partition.startNode(), partition.nodeCount()),
             randomWalkProbabilities.positiveSamplingProbabilities(),
             windowSize,
-            randomSeed
+            randomSeed,
+            progressTracker
         );
     }
 
diff --git a/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/PositiveSampleProducer.java b/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/PositiveSampleProducer.java
@@ -20,6 +20,7 @@
 package org.neo4j.gds.embeddings.node2vec;
 
 import org.neo4j.gds.collections.ha.HugeDoubleArray;
+import org.neo4j.gds.core.utils.progress.tasks.ProgressTracker;
 
 import java.util.Iterator;
 import java.util.SplittableRandom;
@@ -41,18 +42,22 @@ public class PositiveSampleProducer {
     private int currentWindowStart;
     private int currentWindowEnd;
     private final SplittableRandom probabilitySupplier;
+    private final ProgressTracker progressTracker;
+    private boolean attemptedSamplingWalks = false;
 
     PositiveSampleProducer(
         Iterator<long[]> walks,
         HugeDoubleArray samplingProbabilities,
         int windowSize,
-        long randomSeed
+        long randomSeed,
+        ProgressTracker progressTracker
     ) {
         this.walks = walks;
         this.samplingProbabilities = samplingProbabilities;
 
         prefixWindowSize = ceilDiv(windowSize - 1, 2);
         postfixWindowSize = (windowSize - 1) / 2;
+        this.progressTracker = progressTracker;
 
         this.currentWalk = new long[0];
         this.centerWordIndex = -1;
@@ -71,15 +76,22 @@ public boolean next(long[] buffer) {
     }
 
     private boolean nextWalk() {
+        if (attemptedSamplingWalks){ //this means a walk has been exhausted
+            progressTracker.logProgress();
+        }
+        attemptedSamplingWalks = true; //this is because first time nextWalk() is called, it doesnt have any walk lol
+
         if (!walks.hasNext()) {
             return false;
         }
         long[] walk = walks.next();
+
         int filteredWalkLength = filter(walk);
 
         while (filteredWalkLength < 2 && walks.hasNext()) {
             walk = walks.next();
             filteredWalkLength = filter(walk);
+
         }
 
         if (filteredWalkLength >= 2) {
diff --git a/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/TrainingTask.java b/algo/src/main/java/org/neo4j/gds/embeddings/node2vec/TrainingTask.java
@@ -0,0 +1,155 @@
+/*
+ * Copyright (c) "Neo4j"
+ * Neo4j Sweden AB [http://neo4j.com]
+ *
+ * This file is part of Neo4j.
+ *
+ * Neo4j is free software: you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation, either version 3 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program.  If not, see <http://www.gnu.org/licenses/>.
+ */
+package org.neo4j.gds.embeddings.node2vec;
+
+import org.neo4j.gds.collections.ha.HugeObjectArray;
+import org.neo4j.gds.ml.core.functions.Sigmoid;
+import org.neo4j.gds.ml.core.tensor.FloatVector;
+
+import static org.neo4j.gds.ml.core.tensor.operations.FloatVectorOperations.addInPlace;
+import static org.neo4j.gds.ml.core.tensor.operations.FloatVectorOperations.scale;
+
+final class TrainingTask implements Runnable {
+    private final HugeObjectArray<FloatVector> centerEmbeddings;
+    private final HugeObjectArray<FloatVector> contextEmbeddings;
+
+    private final PositiveSampleProducer positiveSampleProducer;
+    private final NegativeSampleProducer negativeSampleProducer;
+    private final FloatVector centerGradientBuffer;
+    private final FloatVector contextGradientBuffer;
+    private final int negativeSamplingRate;
+    private final float learningRate;
+
+    private double lossSum;
+
+    TrainingTask(
+        HugeObjectArray<FloatVector> centerEmbeddings,
+        HugeObjectArray<FloatVector> contextEmbeddings,
+        PositiveSampleProducer positiveSampleProducer,
+        NegativeSampleProducer negativeSampleProducer,
+        float learningRate,
+        int negativeSamplingRate,
+        int embeddingDimensions
+    ) {
+        this.centerEmbeddings = centerEmbeddings;
+        this.contextEmbeddings = contextEmbeddings;
+        this.positiveSampleProducer = positiveSampleProducer;
+        this.negativeSampleProducer = negativeSampleProducer;
+        this.learningRate = learningRate;
+        this.negativeSamplingRate = negativeSamplingRate;
+
+        this.centerGradientBuffer = new FloatVector(embeddingDimensions);
+        this.contextGradientBuffer = new FloatVector(embeddingDimensions);
+    }
+
+    @Override
+    public void run() {
+        var buffer = new long[2];
+
+        // this corresponds to a stochastic optimizer as the embeddings are updated after each sample
+        while (positiveSampleProducer.next(buffer)) {
+            trainPositiveSample(buffer[0], buffer[1]);
+            for (var i = 0; i < negativeSamplingRate; i++) {
+                trainNegativeSample(buffer[0], negativeSampleProducer.next());
+            }
+        }
+    }
+
+    void trainPositiveSample(long center, long context) {
+        var centerEmbedding = centerEmbeddings.get(center);
+        var contextEmbedding = contextEmbeddings.get(context);
+
+        var scaledGradient = computePositiveGradient(centerEmbedding, contextEmbedding);
+
+        updateEmbeddings(
+            centerEmbedding,
+            contextEmbedding,
+            scaledGradient,
+            centerGradientBuffer,
+            contextGradientBuffer
+        );
+    }
+
+    void trainNegativeSample(long center, long context) {
+        var centerEmbedding = centerEmbeddings.get(center);
+        var contextEmbedding = contextEmbeddings.get(context);
+
+        var scaledGradient = computeNegativeGradient(centerEmbedding, contextEmbedding);
+
+        updateEmbeddings(
+            centerEmbedding,
+            contextEmbedding,
+            scaledGradient,
+            centerGradientBuffer,
+            contextGradientBuffer
+        );
+    }
+
+    float computePositiveGradient(FloatVector centerEmbedding, FloatVector contextEmbedding) {
+        // L_pos = -log sigmoid(center * context)  ; gradient: -sigmoid (-center * context)
+        // L_neg = -log sigmoid(-center * context) ; gradient: sigmoid (center * context)
+        float affinity = centerEmbedding.innerProduct(contextEmbedding);
+        //When |affinity| > 40, positiveSigmoid = 1. Double precision is not enough.
+        //Make sure negativeSigmoid can never be 0 to avoid infinity loss.
+        double positiveSigmoid = Sigmoid.sigmoid(affinity);
+        double negativeSigmoid = 1 - positiveSigmoid;
+
+        lossSum -= Math.log(positiveSigmoid + Node2VecModel.EPSILON);
+
+        float gradient = (float) -negativeSigmoid;
+        // we are doing gradient descent, so we go in the negative direction of the gradient here
+        return -gradient * learningRate;
+    }
+
+    float computeNegativeGradient(FloatVector centerEmbedding, FloatVector contextEmbedding) {
+        // L_pos = -log sigmoid(center * context)  ; gradient: -sigmoid (-center * context)
+        // L_neg = -log sigmoid(-center * context) ; gradient: sigmoid (center * context)
+        float affinity = centerEmbedding.innerProduct(contextEmbedding);
+        //When |affinity| > 40, positiveSigmoid = 1. Double precision is not enough.
+        //Make sure negativeSigmoid can never be 0 to avoid infinity loss.
+        double positiveSigmoid = Sigmoid.sigmoid(affinity);
+        double negativeSigmoid = 1 - positiveSigmoid;
+
+        lossSum -= Math.log(negativeSigmoid + Node2VecModel.EPSILON);
+
+        float gradient = (float) positiveSigmoid;
+        // we are doing gradient descent, so we go in the negative direction of the gradient here
+        return -gradient * learningRate;
+    }
+
+    void updateEmbeddings(
+        FloatVector centerEmbedding,
+        FloatVector contextEmbedding,
+        float scaledGradient,
+        FloatVector centerGradientBuffer,
+        FloatVector contextGradientBuffer
+    ) {
+        scale(contextEmbedding.data(), scaledGradient, centerGradientBuffer.data());
+        scale(centerEmbedding.data(), scaledGradient, contextGradientBuffer.data());
+
+        addInPlace(centerEmbedding.data(), centerGradientBuffer.data());
+        addInPlace(contextEmbedding.data(), contextGradientBuffer.data());
+    }
+
+    double lossSum() {
+        return lossSum;
+    }
+
+}
diff --git a/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/Node2VecModelTest.java b/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/Node2VecModelTest.java
@@ -240,12 +240,12 @@ void shouldCreateTrainingTasksWithCorrectRandomSeed() {
 
         assertThat(trainingTasks).hasSize(5);
 
-        verify(node2VecModel, times(5)).createPositiveSampleProducer(any(), anyLong());
-        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(1L));
-        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(2L));
-        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(3L));
-        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(4L));
-        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(5L));
+        verify(node2VecModel, times(5)).createPositiveSampleProducer(any(), anyLong(),any(ProgressTracker.class));
+        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(1L),any(ProgressTracker.class));
+        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(2L),any(ProgressTracker.class));
+        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(3L),any(ProgressTracker.class));
+        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(4L),any(ProgressTracker.class));
+        verify(node2VecModel, times(1)).createPositiveSampleProducer(any(), eq(5L),any(ProgressTracker.class));
 
         verify(node2VecModel, times(5)).createNegativeSampleProducer(anyLong());
         verify(node2VecModel, times(1)).createNegativeSampleProducer(1L);
diff --git a/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/PositiveSampleProducerTest.java b/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/PositiveSampleProducerTest.java
@@ -25,6 +25,7 @@
 import org.junit.jupiter.params.provider.Arguments;
 import org.junit.jupiter.params.provider.MethodSource;
 import org.neo4j.gds.collections.ha.HugeDoubleArray;
+import org.neo4j.gds.core.utils.progress.tasks.ProgressTracker;
 
 import java.util.ArrayList;
 import java.util.Collection;
@@ -60,7 +61,8 @@ void doesNotCauseStackOverflow() {
             walks.iterator(0, nbrOfWalks),
             HugeDoubleArray.of(LongStream.range(0, nbrOfWalks).mapToDouble((l) -> 1.0).toArray()),
             10,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
 
         var counter = 0L;
@@ -88,7 +90,8 @@ void doesNotCauseStackOverflowDueToBadLuck() {
             walks.iterator(0, nbrOfWalks),
             probabilities,
             10,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
         // does not overflow the stack = passes test
 
@@ -112,7 +115,8 @@ void doesNotAttemptToFetchOutsideBatch() {
             walks.iterator(0, nbrOfWalks / 2),
             HugeDoubleArray.of(LongStream.range(0, nbrOfWalks).mapToDouble((l) -> 1.0).toArray()),
             10,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
 
         var counter = 0L;
@@ -137,7 +141,8 @@ void shouldProducePairsWith(
             walks.iterator(0, walks.size()),
             centerNodeProbabilities,
             windowSize,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
         while (producer.next(buffer)) {
             actualPairs.add(Pair.of(buffer[0], buffer[1]));
@@ -160,7 +165,8 @@ void shouldProducePairsWithBounds() {
             walks.iterator(0, 2),
             centerNodeProbabilities,
             3,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
         while (producer.next(buffer)) {
             actualPairs.add(Pair.of(buffer[0], buffer[1]));
@@ -206,7 +212,8 @@ void shouldRemoveDownsampledWordFromWalk() {
             walks.iterator(0, walks.size()),
             centerNodeProbabilities,
             3,
-            0
+            0,
+            ProgressTracker.NULL_TRACKER
         );
 
         while (producer.next(buffer)) {
diff --git a/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/TrainingTaskTest.java b/algo/src/test/java/org/neo4j/gds/embeddings/node2vec/TrainingTaskTest.java