Информативность признаков - понятие относительное. Одна  и та же система признаков может быть информативной  для  решения одной задачи распознавания и не информативной для другой.  Так, кандидатов в сборную команду для участия  в  математической  и спортивной Олимпиадах выбирают по разным  системам  признаков. Оценка информативности признаков зависит от того, что от  чего нужно отличать, т.е. от списка распознаваемых образов S = <s1, s2,...si,...sk >. Зависит она и от типа  решающих  функций  D. Так что, указать "типичные", "часто используемые" признаки  невозможно. Для каждой задачи (для каждой обучающей таблица А) нужно находить своё  информативное множество  описывающих  признаков  Xn. 
    Первоначальный  состав  признаков  (система  Xg)  задается неформализованным  путем,   на   основе   опыта   и   интуиции специалиста. Формальные методы применяются для  проверки  этой исходной системы на достаточность и необходимость. Среди  всех W возможных  систем  признаков  достаточной  будем  считать    систему, которая при заданных S, D и A обеспечивает затраты N, не превышающие некоторый  порог  N0.  Под  затратами  N  здесь понимается стоимость  измерения  признаков  (Nx)  и  стоимость потерь, вызываемых ошибками распознавания (Nr): N = Nx + Nr. Необходимой является достаточная система минимальной сложности (стоимости). Так что, фактически  решается  переборная  задача такого типа:
w = arg min N(X )/S,D,A,N0  среди всех W систем. 
 
Критерии информативности признаков [1-4].  

   Решающим  критерием  информативности  признаков  в  задаче распознавания образов является, конечно,  величина  потерь  от ошибок R. Даже если  распределения   генеральных совокупностей известны,  вычисление  потерь  R  связано  с  очень   большими затратами машинного времени. Поэтому применяются критерии более  просто  вычисляемые  и,  вместе  с  тем, жестко, если не однозначно, коррелированные с оценкой потерь R.  
    Если распределение реализаций каждого  образа  подчиняется нормальному  закону  с  диагональными и одинаковыми   матрицами   ковариаций (поверхности  равной  плотности   представляют  собой   сферы одинакового радиуса), то мерой  трудности  распознавания (Q) может   служить среднее значение евклидова  расстояния  между  математическими ожиданиями всех пар образов: 
  , где rij - евклидово расстояние между математическими ожиданиями i-го и j-го образов.
   В терминах теории информации мерой трудности распознавания служит энтропия H распределений плотности вероятности образов. Но в  реальных  задачах  законы распределений  реализаций  образов обычно не  известны и объем обучающей выборки  часто  бывает  небольшим.   В    этих    условиях целесообразно   использовать   методы,  которые   не   требуют построения моделей распределения  и  опираются  на  конкретные объекты, имеющиеся в обучающей выборке A. 
    По этим "прецедентам" строится решающая функция  (например, правило  k  ближайших   соседей),   распознается   контрольная последовательность и по количеству полученных ошибок выносится оценка информативности отдельного  признака  или  их  системы. Возможны и другие способы оценки информативности признаков. 
    Гипотеза  компактности  дает   нам   основу   для   оценки информативности  пространства   признаков   через   проявление характеристик компактности. Из нее следует, что  для  хорошего распознавания  образов  желательно,  чтобы  расстояния   между точками каждого образа были малыми, а расстояния между точками разных  образов  по  возможности  большими. Компактность (плотность) Di образа i, представленного в обучающей  выборке  mi  точками  1,2,...t,...l,...mi,  можно характеризовать  средней   длиной r  ребер   соединяющего  их полного графа.   Аналогично,    компактность   точек    1,2,...s,...v,...mj, представляющих образ j, будет равна  Dj . Разнесенность образов в пространстве  характеристик  можно оценивать через среднее расстояние между всеми парами точек из разных образов Dij.                  
    На основании вышесказанного  информативность  пространства признаков будет тем большей, чем больше величина                            

J = ( Dij + |Di - Dj | ) / (Di + Dj). 

    Оценку  информативности   признаков   можно   получить   и непосредственно в процессе построения решающего правила в виде дерева дихотомических делений выборки по отдельным признакам.     Представим  себе,  что  мы  имеем  возможность   разделить признак только на две градации: x<s и x>=s.  Посмотрим  состав реализаций, попавших в эти градации. Если  в  первой  градации обнаружится mis реализаций i-го образа  и  mvs  реализаций  v-го образа, то неоднородность состава этой градации можно  оценить величиной 
R1  = S mis*mvs       для i = 1--k  и  v = (i+1)--k. 
    Аналогично  можно найти  неоднородность состава второй градации R2. Величина Rs = R1 + R2 будет характеризовать информативность признака x при пороге деления на две градации x = s.  Меняя  порог  s,  можно  найти такое его положение, при  котором  Rs  достигает  минимального значения  R'.  Если  исходную  неопределенность  оценивать через  
R0 = S mi*mv,        где i=1--k, v=(i+1)--k, 
то уменьшение  неопределенности  после  извлечения информации из  признака  x,  т.е.  информативность признака x, можно оценить величиной Ix = (R0-R')/R0. Если R'=0, то информативность Ix признака будет максимальной и  равной 1.  Если R' не уменьшило исходной неопределенности, то Ix =  0  и признак x естественно считать неинформативным. 
    Если известно, что признаки не зависят друг от  друга,  то можно  с  помощью  одного   из   описанных   методов   оценить информативность всех g  признаков  исходной  системы  и  затем выбрать из них n самых информативных. Но в  реальных  таблицах данных зависимость между признаками наблюдается  очень  часто. А если признаки зависимы, то при выборе наиболее информативной подсистемы   оценками   их   индивидуальной    информативности руководствоваться нельзя,  нужно  испытать на информативность  все подсистемы размерности n.  Для сокращения перебора разработаны эвристические  алгоритмы  направленного перебора, которые за приемлемое время  дают  решения,  близкие к оптимальным. 

Литература:
1. Merill T., Green O.M. On the effectiven
ess of receptors  in recognition systems.- JRE Trans. Inform.  Theory,  1963,  vol. JT-9, p.11-17. 
2.Барабаш Ю.Л., Варский Б.В. и др. Автоматическое распознавание образов. Изд. КВАИУ, Киев, 1964.
3. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Изд. "Наука" Сибирское отделение, Новосибирск, 1981. 
4.Загоруйко Н.Г., Елкина В.Н., Лбов Г.С., Емельянов С.В. Пакет прикладных программ ОТЭКС. Изд. ╚Финансы и Статистика╩, М., 1986.