Разделить данные и предварительно проанализировать их. Разделите данные на две группы: дни, подходящие для гольфа, и дни, не подходящие для гольфа. Для этого можно использовать сортировку по колонке play_golf. Определите:
Наблюдаемую вероятность того, что день — ветренный. Для этого посчитайте среднее значение столбца windy. Для этого замените значения TRUE на 1, а значения FALSE — на 0.
Вероятность того, что день — холодный. Для этого посчитайте долю холодных дней (значение cold переменной temperature) среди всех дней.
Вероятность того, что день дождливый, если влажность высокая. Для этого отфильтруйте только те значения, которые относятся к влажным дням (переменная humidity). В оставшихся наблюдениях найдите долю дождливых дней (переменная outlook).
Построить модель. Предварительные шаги:
Преобразуйте категориальные данные в числовые. Используйте кодирование "1" и "0" для категорий (например, Rainy = 1, Sunny = 0; Hot = 1, Cool = 0 и т. д.).
Рассчитайте априорные вероятности для класса play_golf:
Вероятность того, что play_golf = Yes.
Вероятность того, что play_golf = No.
Рассчитайте условные вероятности для каждого признака в зависимости от класса play_golf:
Вероятность outlook = Rainy / Sunny при play_golf = Yes и No.
Вероятность temperature = Hot / Cool при play_golf = Yes и No.
Вероятность humidity = High / Normal при play_golf = Yes и No.
Вероятность windy = TRUE / FALSE при play_golf = Yes и No.
Используя данные, которые были получены на предыдущем шаге, постройте модель наивного байесовского классификатора. Для дней 32–34 предскажите, можно ли в них играть в гольф согласно нашей модели.
Разделы:
Опубликован:
16.09.2024 | 21:27
Заказ находится в архиве