Merge pull request #1 from m-bain/main

Swami-Abhinav · web-flow · commit a93ca917f2c6 · 2024-01-04T19:58:43.000+05:30
Fix VAD Path for Custom VAD loading
diff --git a/setup.py b/setup.py
@@ -21,7 +21,7 @@
             open(os.path.join(os.path.dirname(__file__), "requirements.txt"))
         )
     ]
-    + [f"pyannote.audio==3.1.0"],
+    + [f"pyannote.audio==3.1.1"],
     entry_points={
         "console_scripts": ["whisperx=whisperx.transcribe:cli"],
     },
diff --git a/whisperx/diarize.py b/whisperx/diarize.py
@@ -18,14 +18,14 @@ def __init__(
             device = torch.device(device)
         self.model = Pipeline.from_pretrained(model_name, use_auth_token=use_auth_token).to(device)
 
-    def __call__(self, audio: Union[str, np.ndarray], min_speakers=None, max_speakers=None):
+    def __call__(self, audio: Union[str, np.ndarray], num_speakers=None, min_speakers=None, max_speakers=None):
         if isinstance(audio, str):
             audio = load_audio(audio)
         audio_data = {
             'waveform': torch.from_numpy(audio[None, :]),
             'sample_rate': SAMPLE_RATE
         }
-        segments = self.model(audio_data, min_speakers=min_speakers, max_speakers=max_speakers)
+        segments = self.model(audio_data, num_speakers = num_speakers, min_speakers=min_speakers, max_speakers=max_speakers)
         diarize_df = pd.DataFrame(segments.itertracks(yield_label=True), columns=['segment', 'label', 'speaker'])
         diarize_df['start'] = diarize_df['segment'].apply(lambda x: x.start)
         diarize_df['end'] = diarize_df['segment'].apply(lambda x: x.end)

Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@`
`21`	`21`	`open(os.path.join(os.path.dirname(__file__), "requirements.txt"))`
`22`	`22`	`)`
`23`	`23`	`]`
`24`		`- + [f"pyannote.audio==3.1.0"],`
	`24`	`+ + [f"pyannote.audio==3.1.1"],`
`25`	`25`	`entry_points={`
`26`	`26`	`"console_scripts": ["whisperx=whisperx.transcribe:cli"],`
`27`	`27`	`},`