neuralset.extractors.audio.SeamlessM4T¶

pydantic model neuralset.extractors.audio.SeamlessM4T[source][source]¶

Extract speech embeddings using the pretrained Seamless M4T model from Hugging Face.

Seamless M4T is a multilingual, multimodal transformer that includes a dedicated speech encoder. It converts raw audio waveforms into high-level embeddings suitable for speech understanding, translation, and other downstream tasks.

model_name[source]¶

The Hugging Face model identifier to load. Defaults to "facebook/hf-seamless-m4t-medium".

Type:: str

Fields:

hf_config (neuralset.extractors.audio.HuggingFaceAudioConfig)
model_name (str)

field model_name: str = 'facebook/hf-seamless-m4t-medium'[source]¶

field hf_config: HuggingFaceAudioConfig = HuggingFaceAudioConfig(** { 'model_cls_name': 'SeamlessM4TModel', 'model_kwargs': None, 'processor_cls_name': 'AutoFeatureExtractor', 'processor_kwargs': None} )[source]¶

load_model() → Module[source][source]¶

requirements: tp.ClassVar[tuple[str, ...]] = ('transformers>=4.29.2', 'huggingface_hub>=0.27.0', 'julius>=0.2.7', 'pillow>=9.2.0', 'transformers>=4.29.2', 'huggingface_hub>=0.27.0', 'julius>=0.2.7', 'pillow>=9.2.0', 'transformers>=4.29.2', 'soundfile', 'transformers>=4.29.2', 'huggingface_hub>=0.27.0', 'julius>=0.2.7', 'pillow>=9.2.0', 'transformers>=4.29.2', 'huggingface_hub>=0.27.0', 'julius>=0.2.7', 'pillow>=9.2.0', 'transformers>=4.29.2', 'soundfile', 'soundfile')[source]¶

← Back to API reference