Fix: apply sequence packing loss wrapper in SFT validation #293

XChen-Zero · 2025-12-15T06:34:21Z

What does this PR do?

This PR fixes a bug in SFT validation when use_sequence_packing is enabled.

In the current implementation, train_step wraps the loss function with
SequencePackingSFTLossWrapper, while val_step directly uses the raw
loss function. This causes validation to fail when sequence packing is enabled.

This PR applies the same loss wrapper logic in val_step to keep training and
validation behavior consistent.

Why is this needed?

When use_sequence_packing is enabled:

Training uses SequencePackingSFTLossWrapper to correctly handle packed sequences
Validation does not apply the wrapper
As a result, forward_step receives incompatible inputs and validation fails

This leads to runtime errors during validation and makes SFT training with
sequence packing unusable.

Changes

Apply SequencePackingSFTLossWrapper in val_step when use_sequence_packing is enabled
Align loss handling between train_step and val_step

Backward Compatibility

No behavior change when use_sequence_packing is disabled
Fully backward compatible

Related Issue

N/A

CLAassistant · 2025-12-15T06:34:28Z

All committers have signed the CLA.

Fix: apply sequence packing loss wrapper in SFT validation

d7e5887

XChen-Zero mentioned this pull request Dec 16, 2025

[BUG] SFT validation fails when use_sequence_packing is enabled #294

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Fix: apply sequence packing loss wrapper in SFT validation #293

Fix: apply sequence packing loss wrapper in SFT validation #293

Uh oh!

XChen-Zero commented Dec 15, 2025

Uh oh!

CLAassistant commented Dec 15, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Fix: apply sequence packing loss wrapper in SFT validation #293

Are you sure you want to change the base?

Fix: apply sequence packing loss wrapper in SFT validation #293

Uh oh!

Conversation

XChen-Zero commented Dec 15, 2025

What does this PR do?

Why is this needed?

Changes

Backward Compatibility

Related Issue

Uh oh!

CLAassistant commented Dec 15, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

CLAassistant commented Dec 15, 2025 •

edited

Loading