-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathFSFS Notes
267 lines (167 loc) · 13.6 KB
/
FSFS Notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
Capítulo sobre correlação - Cap 3
Introdução
Existem duas maneiras de reduzir o conjunto de features
* seleção de features - a partir da redução do espaço de mensuração descartando informações redundantes e
insignificantes
! seleção supervisada = usa nome das classes das features
! seleção não supervisada = não utiliza nada
* extração de features - a partir da redução do número de features utilizando o espaço inicial para obter um
novo espaço transformado
O que o Cap propõe
Neste capítulo é explicado um algoritmo que usa uma seleção de features não supervisionada baseado na medição das
similaridades entre as features para remover a redundância. Não exige nenhuma busca, portanto é rápido.
O algoritmo consiste em dividir o conjunto de features inicial em subconjuntos ou clusters de features similiares.
Features de clusters diferentes não são similares. A partir dai, extrai-se uma feature de cada cluster para
constituir o novo espaço de features.
Extração de features
Objetivo -> Reduzir o número de features a partir do espaço inicial. Isto é, mapear os pontos do espaço inicial em
um novo espaço de ordem menor.
X = f(Y)
Y = [y1, y2, ..., yp] no espaço OMEGA_p
X = [x1, x2, ..., xp'] no espaço OMEGA_p'
onde, p' < p
Seleção de features
Métodos convecionais consistem em avaliar diferentes subconjuntos de features usando algum tipo de índice (index) e
selecionando o melhor entre eles. Normalmente, este índice mede a capcidade dos respectivos subconjuntos na
classificação ou na clusterização, dependendo se o processo é supervisionado ou não.
Problema deste método é computacionalmente grande. A busca euxastiva é exponencial em termos do tamanho dos dados.
Algumas heurísitcas, como branch and bound, algoritmos gulosos são populares para solucionar este problema.
Algoritmos que usam a seleção de features são também conhecidos como filter ou wrapper. O algoritmo que não faz uma
classificação/clusterização é chamado filter. Por outro lado, algoritmos wrapper usam diretamente a classificação de
algum classificador como critério de avaliação. O wrapper tem um desempenho melhor, apesar de um tempo de consumor
maior.
Algoritmos Filter
Categorias de métodos para seleção não supervisionada:
* Métodos que maximizam o desempenho de clusterização, quantificado por um índice. Incluem o algoritmo de
seleção sequencial de features não supervisionda, método baseado na máxima entropia e a recentemente
desenvolvida abordagem neuro-fuzzy.
* Métodos que consideram a seleção de features baseado na dependência e relevância. O princípio é que
qualquer feature contendo pouca ou nenhuma informação adicional é redundante é deve ser eliminada. Várias
medições de dependência como coeficientes correlacionados, estatísticas de redundância, ou dependência
linear vem sendo usados.
Algoritmos Wrapper
Na forma mais geral, algoritmos wrapper consistem em usar o desempenho de previsão de uma máquina de aprendizado
para avaliar a utilidade relativa dos diferentes subconjuntos de variáveis. Na prática, é preciso definir:
i. como buscar o espaço de todos os subconjuntosde variáveis possíveis
ii. como avaliar o desempenho de previsão de uma máquina de aprendizado para guiar a busca e pará-la
iii. que preditor usar
Várias estratégias de busca podem ser usadas, incluindo breadth-first, branch-and-bound, simulated annealing e
algoritmos genéticos. Preditores populares incluem árvores de decisão, naive Bayes, least square linear
predictors e support vector machines.
Como wrappers usam máquinas de aprendizado como uma caixa preta, eles são bastente gerais e simples.
Seleção de features usando similaridades de features (FSFS)
Aqui é descrito um algoritmo não supervisionado que está classificado como um algoritmo filter. O método usa as
dependências/similaridades das features para reduzição de redundância sem precisar de uma busca. Ele consiste em
particionar o conjunto de features inicial em diferentes subconjuntos ou clusters onde as features em um mesmo
cluster possuem uma grande similaridade enquanto features de clusters diferentes não. Uma feature de cada cluster
é selecionada para formar o subconjunto reduzido.
Uma nova medida de similaridade, chamada maximal information compression index, é usada na clusterização. É feita a
comparação entre ela e outras duas medidas chamadas, coeficiente de correlação e a least square regression error.
É também explicado como a representação da entropia pode ser usada para quantificar a redundância de um conjunto.
Objetivos da clusterização e da similaridade de features são minimizar a perda de informações no processo de redução
e minimizar a redundância presente no subconjunto reduzido.
Medidas de similaridades de features
Aqui é discutido alguns critérios para mediar a similaride de features de duas variáveis aleatórias, baseada na
dependência linar entre elas. Neste contexto é apresentado a medida maximal information compression index para
ser utilizado na seleção da feature.
Existem duas maneiras de medir a similaridade entre duas variáveis randômicas. Uma é testar não-parametricamente
a proximidade das distribuições de probabilidade das variáveis. Uma outra maneira é medir a quantidade da
dependência (linear ou superior) entre as variáveis. Existem vários benéficios de escolher a dependência linear
como medida de similaridade. É conhecido que se algumas features são linearmente dependentes de outras, e se o
dado é linearmente separável da representação original, o dado ainda é linearmente separável se todas menos uma
feature linearmente dependente são removidas.
No respeito ao conteúdo da informação dos dados, estatísticas de segunda ordem dos dados são os critérios mais
importantes depois da média dos dados. Todas as medidas de dependência linear que iremos discutir estão
relacionados com a quantidade de erros em termos de estatísticas de segunda ordem, em prever uma das variáveis
através da outra.
Será discutido duas medidas de dependência linear antes de explicar o maximal information compression index
Coeficiente de correlação (ρ)
A mais conhecida medida de similaridade entre duas variáveis aleatórias
O coeficiente de correlação entre duas variáveis x1 e x2 é definida como:
ρ(x1,x2) = cov(x1,x2) / sqrt(var(x1)var(x2))
onde var() é a variância e cov a covariância
se x1 e x2 são completamente correlacionados então a dependência linear existe e ρ(x1,x2) = 1 ou -1. Caso
contrário, se x1 e x2 são totalmente não correlacinados ρ(x1,x2) = 0. Portanto, 1 - |ρ(x1,x2)| pode ser
usado como medida de similaridade entre as duas variáveis. O seguinte pode ser afirmado
1. 0 <= 1 - |ρ(x1,x2)| <=1
2. 1 - |ρ(x1,x2)| = 0 sse x1 e x2 são linearmente relacionados
3. 1 - |ρ(x1,x2)| = 1 - |ρ(x2,x1)| (simetria)
4. se u = (x1 - a) / c e v = (x2 - b) / d para algumas constantes a,b,c,d, então 1 - |ρ(x1,x2)| = 1 - |ρ(u,v)|
isto é, a medida é invariante para a ampliação e translação da variável
5. a medida é sensível à rotação do diagrama de dispersão no plano (x1,x2)
Apesar de o coeficiente de correlação apresentar propriedades desejáveis como medida de similaridade, as
propriedades 4 e 5, fazem dela uma medida inadequada para a seleção de features. Uma vez que a medida é
invariante para dimensionamento, dois pares de variáveis que têm variâncias diferentes podem ter o mesm o
valor da medida de similaridade, o que não é desejável desde que a variância tem elevado conteúdo
informativo. Sensibilidade à rotação também não é desejada em várias aplicações.
Least square regression error (e)
Outra medida de grau de dependência linear entre duas variáveis x1 e x2 é o erro em prever x2 do modelo
linear x2 = a + bx1. a e b são coeficientes de regressão obtidos pela minimização do erro médio quadrático
e(x1,x2)^2 = 1/n * ∑(ei(x1,x2))^2, ei(x1,x2) = x2i - a - bx1i
os coeficientes são dados por a = ̄x2̄ e b = cov(x1,x2)/var(x1)
e a média do erro quadrático e(x1,x2) por var(x2)(1 - ρ(x1,x2)^2)
Se x2 e x1 são linearmente relacionados e(x1,x2) = 0 e se são completamente não correlacionados e(x1,x2) = var(x2).
A medida eˆ2 também é conhecida como variância residual. É a quantidade da variância de x2 inexplicada pelo
modelo linear. Algumas propriedades são:
1. 0 ≤ e(x1, x2) ≤ var(x2).
2. e(x1,x2) = 0 sse x1 and x2 são linearmente relacionados
3. e(x1, x2) != e(x2, x1) (não é simétrico).
4. se u = x1/c e v = x2/d para algumas constantes a,b,c,d, então e(x1,x2) = d^2e(u,v), i.e., a medida e é
sensível à ampliação das variáveis. Também é claro que e é invariante à translação da variável.
5. A medida e é sensível à rotação do diagrama de dispersão no plano x1 - x2.
Note que a medida e não é simétrica (propriedade 3). Além disso, é sensível a rotação (propriedad 5).
Agora será apresentado uma medida de dependência linear que possue várias propriedades desejáveis
inexistentes nas duas primeiras medidas.
Maximal information compression index (λ2)
Seja Σ a matriz de covariância das variáveis aleatórias x1 e x2. Defina, maximal information compression
index como λ2(x1,x2) = menor autovalor de Σ, i.e,
2λ2(x1, x2) = (var(x1) + var(x2) − sqrt((var(x1) + var(x2))^2 − 4var(x1)var(x2)(1 − ρ(x1, x2)^2))
O valor de λ2 é zero quando as features são linearmente dependentes e aumenta à medida que a dependência
diminui.
It may be noted that the measure λ2 is nothing but the eigenvalue for the direction normal to the principle
component direction of feature pair (x1,x2). The corresponding loss of information in reconstruction of the
pattern (in terms of second order statistics) is equal to the eigenvalue along the direction normal to the
principal component. Hence, λ2 is the amount of reconstruction error committed if the data is projected to a
reduced (in this case reduced from two to one) dimension in the best possible way. Therefore, it is a
measure of the minimum amount of information loss or the maximum amount of information compression possible.
O significado de λ2 pode ser geometricamente explicado em termos da regressão linear. o valor de λ2 é igual
a soma dos quadrados das distâncias perpendiculares dos pontos (x1,x2) à melhor linha de ajuste
x2 = â + ˆbx1, obtida por minimizar a soma dos quadrados das distâncias perpendiculares. os coeficientes de
tal melhor linha de ajuste são dados por
â = ̄x1̄ cotθ + ̄x2̄
e
^b = cotθ , onde θ = 2 tan̄1 (2cov(x1,x2) / var(x1)^2 - var(x2)^2)
Propriedades de λ2:
1. 0 ≤ λ2(x1, x2) ≤ 0.5(var(x1) + var(x2)).
2. λ2(x1,x2) = 0 if and only if x1 and x2 are linearly related.
3. λ2(x1, x2) = λ2(x2, x1) (symmetric).
4. If u = x1/c and v = x2/d for some constant a,b,c,d, then λ2(x1,x2) ≠ λ2(u,v); i.e., the measure is
sensitive to scaling of the variables. Since the expression of λ2 does not contain mean, but only the
variance and covariance terms, it is invariant to translation of the data set.
5. λ2 is invariant to rotation of the variables about the origin (this can be easily verified from the
geometric interpretation of λ2 considering the property that the perpendicular distance of a point to a
line does not change with rotation of the axes).
The measure λ2 possesses several desirable properties such as symmetry (property 3), sensitivity to scaling
(property 4), and invariance to rotation (property 5). It is a property of the variable pair (x1, x2)
reflecting the amount of error committed if maximal information compression is performed by reducing the
variable pair to a single variable. Hence, it may be suitably used in redundancy reduction.
Seleção de features a partir da clusterização
Constitue-se de duas fases:
i. particionamento do conjunto de features original em um número de subconjuntos (clusters) homogêneos
ii. seleção da feature representante de cada cluster
Partitioning of the features is done based on the k-NN principle using one of the feature similarity measures
described in Section 3.4.1. In doing so, the k nearest features of each feature are computed first. Among them
the feature having the most compact subset (as determined by its distance to the farthest neighbor) is selected,
and its k neighboring features are discarded. The process is repeated for the remaining features until all of
them are either selected or discarded.
While determining the k nearest neighbors of features a constant error threshold (ε) is assigned; ε is set equal
to the distance of the kth nearest neighbor of the feature selected in the first iteration. In subsequent
iterations, it is checked whether the λ2 value, corresponding to the subset of a feature, is greater than ε or
not. If yes, the value of k is decreased. Therefore k may be varying over iterations.
ÍNDICES QUE AVALIAM A SELEÇÃO DE FEATURES
Seja 'n' o número de pontos da conjunto de dados, 'M' o número de classes presentes no conjunto de dados, 'P' o
número de features no conjunto original 'A', 'p' o número de features no conjunto reduzido de features 'R',
'OmegaA' o espaço original de features com dimensão 'P', e 'OmegaR' o espaço transformado de features com
dimensão 'p'.
Índices não supervisionados
Entropia