Классификация с помощью pytorch моделей
Не получается разобраться с механизмом векторизации текста.
В общем, если использовать sclearn для получения векторов, то все идет нормально. Скармливаем трейн и тест модели получаем нормальный скор
Хотел применить вместо sklearn torchtext , но почему то чепуха. Подозреваю, я неправильно использую словарь слов. Валидация показывает аккураси 90, а тест 1
Вот код для создания трейна и валид датасетов и итератора
TEXT = torchtext.data.Field(sequential=True, tokenize=lambda x: x.split(' '), pad_token='<pad>', unk_token='<unk>') LABEL = torchtext.data.LabelField(sequential=False, unk_token=None, is_target=True) datafields = [('text', TEXT), ('label', LABEL)] data = read_data(train, datafields, label_column='category_id') valid, trainn = data.split([0.1, 0.9]) TEXT.build_vocab(trainn, max_size=50000) LABEL.build_vocab(trainn) model = CBoWTextClassifier2(TEXT, LABEL, emb_dim=128) device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model.to(device) train_iterator = torchtext.data.BucketIterator( trainn, device=device, batch_size=256, sort_key=lambda x: len(x.text), shuffle = True, repeat=False, train=True) valid_iterator = torchtext.data.Iterator( valid, device=device, batch_size=256, repeat=False, train=False, sort=False)
Вот код теста:
datafields = [('text', TEXT)] data = read_data(test, datafields) test_iterator = torchtext.data.Iterator( data, # device='cpu', batch_size=1, repeat=False, train=False, sort=False)
Остальное стандартно. Модель обычная эмбеддинг и лиейные слои