После двух месяцев разработки Линус Торвальдс представил релиз ядра Linux 4.9. Среди наиболее заметных изменений: средства для диагностики и блокирования переполнений стека ядра, поддержка SELinux в OverlayFS, поддержка алгоритма контроля перегрузки BBR, поддержка POSIX ACL в FUSE, механизм квот в netfilter, реализация шины Greybus.
В новую версию принято около 15 тысяч исправлений от 1400 разработчиков, размер патча — 45 Мб (изменения затронули 11042 файлов, добавлено 632157 строк кода, удалено 354728 строк). Около 42% всех представленных в 4.9
изменений связаны с драйверами устройств, примерно 19% изменений имеют
отношение к обновлению кода специфичного для аппаратных архитектур, 12%
связано с сетевым стеком, 5% — файловыми системами и 4% c внутренними
подсистемами ядра.
- Виртуализация и безопасность
- Для архитектуры x86 добавлен набор изменений с реализацией механизма виртуального маппинга стека ядра (CONFIG_VMAP_STACK), предоставляющего средства для определения и блокирования переполнений стека. Ожидается, что новая возможность станет серьёзным барьером для эксплуатации уязвимостей в ядре. Суть изменения в переносе стеков ядра в область vmalloc(), что позволяет сократить число операций распределения памяти, повысить безопасность и реализовать средства для диагностики выхода за границы стека. Обратной стороной использования vmalloc() для стека ядра являются дополнительные накладные расходы, вносящие задержку при создании процессов. Данную задрержку удалось минимизировать благодаря оптимизациям и дополнительному кэшированию;
- В SELinux обеспечена поддержка многослойных файловых систем, таких как OverlayFS, используемых для построения окружений в системах контейнерной изоляции;
- Реализованы новые системные вызовы pkey_alloc(), pkey_free() и pkey_mprotect() с реализацией поддержки предоставляемого в будущих моделях процессоров Intel механизма PKU (Memory Protection Keys for Userspace) для обеспечения защиты страниц памяти без изменения таблицы страниц памяти;
- В систему сборки добавлена возможность использования плагина GCC «latent_entropy», предложенного проектом grsecurity и предоставляющего средства для сбора дополнительных случайных параметров на начальном этапе загрузки для последующей инициализации энтропии для генератора случайных чисел;
- Сетевая подсистема
- В состав ядра включена реализация предложенного компанией Google алгоритма контроля перегрузки TCP (congestion control) — BBR (Bottleneck Bandwidth and RTT), успешно применяемого для увеличения пропускной способности и сокращения задержек передачи данных для трафика с google.com и YouTube. BBR требует внесения изменений только на стороне отправителя, программное обеспечение сетевой инфраструктуры и принимающей стороны остаётся без изменений. Вместо
использования потери пакетов как индикатора перегрузки, в BBR применяются методы моделирования канала связи, прогнозирующие имеющуюся пропускную способность через последовательные проверки и оценку времени приема-передачи (RTT), но не доводя до потери пакетов или задержек в передаче. На начальной стадии соединения BBR оценивает потолок пропускной способности канала, затем снижает интенсивность отправки для разгрузки очереди и переходит в режим корректировки, то повышая, то снижая интенсивность отправки, балансируя между максимальной пропускной способностью и незаполненностью очереди пакетов; - В netfilter добавлен новый механизм «quota» с реализацией байтовых квот (правило срабатывает только до истечения квоты). Например, можно задать для правила квоту в 100Мб и после того как под правило подпадёт 100 Мб трафика, действие этого правила прекратится;
- В netfilter добавлен модуль для генерации случайных чисел, который можно использовать для выбора случайного назначения пакета (например, для случайного распределения по очередям);
- Реализован новый JIT-компилятор для BPF, который может загружать программы BPF для выполнения на сетевых интерфейсах с процессорами Netronome. В ядре 4.9 данная возможность пока используется только в модуле классификации cls_bpf;
- Для сетевого mesh-протокола B.A.T.M.A.N. («Better Approach To Mobile Adhoc Networking), позволяющего создавать децентрализованные сети, каждый узел в которых связан через соседние узлы, подготовлен новый механизм настройки на основе интерфейса netlink;
- В состав ядра включена реализация предложенного компанией Google алгоритма контроля перегрузки TCP (congestion control) — BBR (Bottleneck Bandwidth and RTT), успешно применяемого для увеличения пропускной способности и сокращения задержек передачи данных для трафика с google.com и YouTube. BBR требует внесения изменений только на стороне отправителя, программное обеспечение сетевой инфраструктуры и принимающей стороны остаётся без изменений. Вместо
- Память и системные сервисы
- В состав включена подсистема Greybus, разработанная для обеспечения взаимодействия компонентов модульного смартфона Ara. Greybus предоставляет внутреннюю шину для взаимодействия между аппаратными компонентами, подключаемыми по мере необходимости. В отличие от шин USB и PCIe, в Greybus предоставлена поддержка маршрутизации вызовов и приватного взаимодействия, что позволяет двум компонентам взаимодействовать друг с другом, не позволяя другим компонентам отследить данное взаимодействие. Несмотря на то, что компания Google свернула проект Ara, Greg Kroah-Hartman сумел убедить разработчиков ядра в целесообразности включения данной подсистемы в основное ядро;
- Представлен новый набор файлов в /sys/kernel/irq, описывающих состав таблицы обработчиков прерываний. Новый набор позиционируется как замена /proc/interrupts, боле простая для разбора в приложениях;
- Добавлена опция CONFIG_DEBUG_TEST_DRIVER_REMOVE, позволяющая автоматически протестировать работоспособность выгрузки драйвера устройства через выполнение цикла загрузки, выгрузки и опять загрузки драйвера на этапе инициализации устройства;
- Продолжено развитие средств для форматирования документации к ядру с использованием разметки reStructuredText (RST) и пакета Sphinx. В новой версии ядра обеспечена корректная генерация документации в формате PDF. В новом формате представлена первая порция переработанных документов об API для программирования драйверов, а также инструментах для разработки ядра, особенностях процесса разработки и организации работы в сообществе;
- Дисковая подсистема, ввод/вывод и файловые системы
- В модуле FUSE, предоставляющем средства для создания файловых систем, работающих в пространстве пользователя, появилась поддержка списков контроля доступа, соответствующих POSIX ACL;
- В файловую систему XFS добавлена поддержка общих экстентов (shared extents), позволяющих нескольким владельцам совместно использовать сведения о непрерывных областях данных (например, разные файлы могут использовать общие экстенты). Данная возможность открывает двери для реализации в XFS вызова copy_file_range() и таких возможностей как дедупликация данных;
- В NFS-сервер добавлена поддержка операции COPY, определённой в спецификации NFS4.2 и позволяющей выполнить копирование содержимого файла без перемещения данных по сети от сервера к клиенту и обратно;
- В Btrfs и Ext4 отмечается только исправление ошибок;
- Оборудование
- В драйвер AMDGPU добавлена экспериментальная поддержка семейства GPU Southern Islands на базе микроархитектуры GCN 1.0. Реализованы средства для работы с виртуальными дисплеями, которые позволяют обеспечить работу других модулей ядра или компонентов пространства пользователя в условиях, когда вместо аппаратного экрана, вывод осуществляется на виртуальный экран;
- Для DRM-драйверов (Direct Rendering Manager) Nouveau и Intel отмечаются только незначительные исправления;
- Поддержка систем на базе платформы Mellanox Technologies;
- Поддержка процессоров Loongson 1C;
- Поддержка контроллеров USB 3.0 Broadcom Northstar и контроллеров USB 2.0 Rockchip/Innosilicon;
