2.2 Оценка качества по контрольной выборке.

 

Контрольной (экзаменационной) выборкой называют выборку, которая не используется при формировании дерева, а служит для оценки качества построенного дерева. При решении задачи распознавания вычисляется относительное число ошибок, а для регрессионного анализа - дисперсия для контрольной выборки. Поскольку эта выборка не участвует в построении дерева, эти показатели более объективно отражают «истинную» неизвестную ошибку. Чем больше объем контрольной выборки, тем выше степень приближения.

Для задачи распознавания, при условии независимости наблюдений, частота ошибок подчиняется биномиальному распределению. Поэтому, зная число ошибок на контрольной выборке, можно найти доверительный интервал, в котором с заданной вероятностью находится неизвестное значения вероятности ошибки. В работе [5] приведены графики, по которым можно определить доверительный интервал для данного объема контрольной выборки и числа ошибок на контроле.

 

Вернуться в оглавление