Аннотация:Предмет. Дискретизация факторов дефолта кредитного требования. Банковская система России успешно переняла опыт западных розничных банков по моделированию различных аспектов поведения заемщиков — физических лиц. Моделирование кредитного риска остается единственной областью, регулируемой Банком России. Несмотря на наличие предписаний регулятора и Базель II, многие аспекты контролируются экспертным суждением. Нерешенной остается проблема выбора алгоритма дискретизации факторов дефолта кредитного требования. Цели. Выделить множество валидных в отношении кредитного скоринга алгоритмов дискретизации и выбрать из него оптимальный алгоритм. Также необходимо показать, что дискретизация является неотъемлемой частью построения предиктивной модели в случае использования метода логистической регрессии. Методология. Использованы: статистический анализ, контент-анализ источников.Результаты. Показано, что среди алгоритмов, соответствующих требованиям Базель II (минимум 5% наблюдений в бакете, пропущенные значения переменной в отдельном бакете, наличие обоих типов наблюдений в бакете), а также устоявшихся в практике критериев (репрезентативность разбиения, монотонность целевой переменной по бакетам), оптимальным оказался предложенный автором алгоритм (TreeR). В его основе — разбиение непрерывной переменной в результате работы алгоритма построения деревьев решений для бинарной зависимой переменной. Выводы. Данный алгоритм является принципиально новым решением задачи дискретизации непрерывной переменной. Важной особенностью TreeR выступает реализация в открытом программном обеспечении с опорой на общедоступные библиотеки. Область применения. Результаты работы могут быть использованы в кредитном скоринге, равно как и в любом статистическом моделировании с использованием логистической регрессии.Ключевые слова: кредитный скоринг, логистическая регрессия, дискретизация, предобработка данных, непрерывная переменная