Data Mining

1.�� Data Mining � �� : ��, �� , �� . 1

2.�� Data Mining � �� : �� , �� . 2

3.�� . 3

4.�� .. 4

5.�� . �� . �� . �� . 5

10.�� -��, �� . �� . 8

16.�� (��): �� , �� . �� 11

17.�� . �� . 12

18.�� . �� . 13

19.�� . �� . �� . 13

25.�� p�� pp��p�� p��. 15

26.�� . 15

27.�� (��, ��p��p��, ��, ��). 15

28.�� . 15

29.�� . 15

30.�� p�� p��p��. 16

31.�� . �� . �� 16

32.�� , �� . 17

33.�� p�� . � �� p��. 18

34.�� .. 18

35.�� p�� p�� p��. 18

36.�� . 18

37.�� p�� p��. �� . �� , �� . 19

38.�� . 19

39.�� , �� . 19

40.�� . 20

41.�� Text Mining. 20

42.�� Web Mining. 21

1. Data Mining � �� : ��, �� , ��

Data Mining

(��, �� )

- �� , �� , �� [��] �� .

- �� (��, �� ) � �� , �� . ��, �� , �� .

�� :

1.�� : �� , �� , �� ;

2.�� ;

3.�� ;

4.�� : OLAP, ��, Data Mining;

5.��: �� , ��, �� ;

6.�� : CRM, ERP�

1. �� ;

2. �� ;

3. �� ;

4. �� ;

5. �� .

2. Data Mining � �� : �� , �� .

��, �� Data Mining:

� �� � �� (��, ��, ��) � �� .

� �� � �� (��) �� .

� �� � �� .

� �� � �� . ��, �� (market basket analysis) � �� .

� ��  � �� , �� , �� , �� .

� ��  � �� , �� . ��, �� -�� .

� �� � �� , �� . ��, �� .

� ��  � �� . ��, �� .

� �� . �� . �� .

�� :

� �� � �� (��, �� );

� �� � �� (��, � �� );

� �� � �� , �� , � �� (�� );

� �� � ��, �� , �� ;

� ��  �� (�� , �� ), �� .

�� :

� ��, ��  �� , � ��, � �� SAS Institute, StatSoft � ��.

� �� , ��  �� .

� �� /��  �� .

� ��  �- �� . �� , ��, �� .

� ��  �� , �� , �� . �� (�� ).

� ��  �� .

� ��  �� , �� , �� , � � �� , �� , �� .

� ��  �� , �� , �� , �� .

� �� �� -�� , �� , �� .

� ��  �� .

3. �� .

�� � �� <x,ϕ,y>, �� x � �� , ϕ � �� X �� Y, y � ��; �� , � �� .

� ��  �� ; �� (�� ); �� , ��, �� , ��, �� . �� 1 � 2 � �� , � ��.

� �� (�� ) � ��, � �� ϕ �� . �� , �� , �� (�� , � ��, � �� -�� , �� ). ��, �� , �� , �� .�.).

� ��  �� ; �� , �� ϕ(x) = ax + b, � > 0, b � �� . �� . �� (�� b) � �� (�� ). �� , �� . ��, �� , �� , �� .

� �� (��) - ��, � �� ϕ �� ϕ(x) = ax, � > 0. �� , �� . �� b: b=0. �� . ��, �� , �� .�.

� ��  ��, �� ϕ(x) = x + b; �� . �� . �� : �=1. �� . ��: �� (� �� .�.

� ��  ��, � �� ϕ(x) = x. �� . ��: �� , ��, ��, �� .�.

� ��  �� ax^b, �� .

� ��  �� , ��, ��.

�� :

� ��, �� (Record) � �� , �� .

o Data Matrix � �� mxn ��, �� m �� (�� ) � n �� (�� ).

o Document Data � �� term� ��. �� term� � ��.

o Transaction Data � �� , �� (��) �� , ��, �� .

� �� (Graph) � �� .

o World Wide Web � ��;

o Molecular Structures � �� .

� �� (Ordered) � ��, ��

o Spatial Data � �� , ��, ��;

o Temporal Data � �� ;

o Sequential Data � �� ;

o Genetic Sequence Data � �� .

4. �� .

�� Data Mining �� . �� , �� .

� �� � �� ;

� �� � �� , �� .

� ��  �� , �� , �� , �� . � �� -�� . �� : �� ; �� ; �� . �� ; �� (� �� )

� ��  � �� , �� . ��, �� . �� : �� . ��, soundex.

(*�� *)

5. �� . �� . �� . �� .�

�� � �� , � �� , ��. �� , �� .

�� : �� ; �� . �� .

�� (�� ) � �� (�� ). �� : (1)� �� ; (2) �� , �.�. �� ; (3) �� , �� ; (4) �� .

�� : �� - �� , �� . �� - �� . �� - �� . �� - �� . �� /�� .

�� :

� �� -�� - �� j-�� i-�� . �� .

� ��  �� Oi � Oj.

� ��

�� : ?

6. �� . �� .

��  � �� , �� .

�� : ��, �� (aij<>1,�� i <> j), �� (aii = 1).

� ��  �� . �� (�.��):

�� X_ik � �� k-�� i-�� ;

�� - �� i-�� ;

�� P � �� .

�-� �� .

�-� ��, �� , �� , �� , � �� .

� �� (��) � �� . �� : ��, ��, �� .

o ��  �� :

d_ij� �� i � j, � x_ik� �� -�� i-�� .

o ��  �� d².

o �� (��) �

o �� 

, r >= 1

o �� (�� ) � ��

Σ � �� , Xi � Xj � �� i � j ��.

�� , �� .

�-� �� . �� ;

�� , �� .

� �� (��, �� ) � �� , �� . �� :

�� 1 0

1 3 0

0 2 1

� ��  �� . �� , � �� , �� . �� .

7. �� -��.

� �� ;

� ��, �� .

8. �� . �� . �� .

� �� ;

o � �� . �� .

o �� , �� , �� .

o �� . �� .

o �� 2 � 3 �� , �� (��). �� , �� , �� .

� �� ;

o ��

o � �� , � �� .

� ��  ��, �� . �� .

� ��  ��, �� .

o �� .

� ��  �� , �� . �� , �� , �.�. �� , �� .

� �� :

o ��  �� .

�-� �� , ��

�+��� .

o ��  �� . �� .

o ��  �� , �� .

o ��  �� . �� .

o ��  ��, �� . �� .

� ��:

o �� ;

o �� (�� ) �� .

9. �� . �(��. ��)

10. �� -��, �� . �� .

- �� .

��  � ��

o �� -�� (K-means) �

ü �� k �� (��) �� ;

ü �� , �� ;

ü �� ;

ü �� 2 � 3 �� , �� .

o �� -��- �� : �� , �� k �� (��), �� .

ü �� k �� d;

ü �� i �� k �� : �1� � �� k-�� , �0� - � �� .

ü �� , �� .

ü ��

��  �� .

��:

o � �� , �� , �� ;

o �� ;

o 1 ��: �� 1 �� ;

o m-�� : m-�� :

ü �� , �� , �� ;

ü �� , �� .

��:

- �� : �� ;

- �� .

11. �� . ��

�� :

ü � �� (��) ��. �� . ��-�� .

�� :

ü �� , �� 0 ��1.

�� :

ü Fuzzy C-means

o �� k-�� (�Hard C-means�);

o �� , �� w (fuzzification factor) � �� 1 (��) �� (�� );

o �� w=2.

o ��:

� �� :

� �� ;

� ��

� �� .

ü �� -��

o �� ;

o �� .

ü Fuzzy C-varieties

o �� , �� , �� , �� , ��, � �� Fuzzy c-Ellipsoids.

o �� r-�� .

ü Possibilistic Fuzzy C-means (P-FCM)

o �� -�� (�� );

o � �� β, �� .

ü Noise Clustering

o �� ;

o �� (�� ), �� ;

o � �� , �� ;

o �� c+1 ��.

ü ��:

o �� ;

o �� .

ü ��:

o �� ;

o �� , � �� ;

o �� (��, �� ).

12. �� -��.

o �� - �� (��): �� , �� , �� , � �� .�. �� . �� . � �� k-1 �� k ��.

o �� - �� , �� . �� . �� , �� n (�� ), �� . �.�. �� . �� , �� , �� . �� , �� .

�+� �� .

13. �� .

�� . �� , ��

o ��, ��  �� . � �� : �� , � �� . ��, �� .

�-� �� ;

�-� �� .

o ��  �� , �� . �� : �� k; �� ; �� . �� . ��, �� , �� .

ü ��, �� - � �� , ��, �� .

��: ��-��  �� Estimation �� , Maximization � �� .

�� :

o �� ;

o �� k;

o �� ;

o �� .

�� . �� k.

�� , �� , �� .

ü ��, �� -

��: SEM-�� - �� Estimation �� , Maximization � �� , Stochastique � �� .

�� , �� k ��, � �� , �� .

�-� �� , � �� .

14. �� .

� �� -, ��-, �� . �� .

� ��  �� : �� ; �� ; �� .

o �� (�� )

�- �� i-�� ;

- �� l-�� ;

n_l � �� l-�� ;

�- �� i-�� l-�� .

o �� 

� �� 

- �� l-�� ;

� �� 

� T = 1 �SW/S, 0 <= T <= 1. �� , �� , � �� , �� .

o �� -��;

o �� RMSSTD.

� ��  �� (�� , �� ):

o ��  �� Gi ��, ��

o ��  �� Gi, �� Gi� ��

� ��  �� . �� , �� (�� ) �� , �� . �� , � �� .

�-� �� .

� �� , ��  �� , �� , �� . �� .

� ��  �� , �� .

�-� �� .

� �� , ��  �� , �� . �� , � �� .

� �� -�� 

o �� �� : �� , �� , �� . �� , �� , �� F-��. � �� .

o �� ��  �� , � �� . �� , �� .

15. �� .

�� (�� ):

� ��  �� k=1

o Duda � Hart �� , �� :

�� w[2] � �� , �� ;

w[1] � �� .

�� , �� F₁ ��, �� :

n � �� ,

� � �� ,

z_1-α � �� 1-α.

�� , �� (��) � �� .

o Beale �� :

�� .

�� . �� , � �� , �� .

�� , �� , �� .

�-� �� (�� )

� �� � Calinski � Harabasz �� :

�� B, W � �� ,

k �� .

�� . �� k, �� F₃ �� (��).

�-� �� k=1, �� , � �� .

16. �� (��): �� , �� . �� .

��  �� , �� . �� , �� , �� .

� �� :

� �� - �� ;

� �� .

��  ��, �� , �� . �� , �� .

�� �� :

� �� : g>=2;

� �� : n_i>=2;

� �� , �� 2: 0 < p < (n-2);

� �� , �� ;

� �� ;

� �� , �.�. �� .

�� . �� , �� .

17. �� . �� .

��  � �� .

fkm � �� m-�� k-�� ;

Xikm � �� i-� �� m-�� k;

ui� - ��, �� .

�� u� �� , �� . �� , �� : �� .�. �� , �� . � �� , �� .

��  u - �� . �� :

� �� 

�- �� .

�� (n-1), �� . �� , �� . �� .

� �� W �� , �� , � �� .

�� .

� �� : B = T � W.

�� , ��

��

�� :

λ � ��

ν_i_�� .

�� b, w. �� v. �� :

�� , �� . (?)

�� :

�� , �� , � �� .

�� , �� .

18. �� . �� .

�� :

� �� λ � �� , �� .

� ��  � �� . �� .

� ��  � �� . �� , �� . �� .

� ��  �� , �� . �� , �� . �� Λ-�� . �� , �� , �� 1, �� .

� �� χ² � �� χ^2..

19. �� . �� . �� .

�� , �� , �� :

h_k�- �� k;

b_ki� ��, �� .

�� , �� . �� , � �� , �� .

�� �� .

�� ��  ��, �� , � �� .

20. �� .

�� :

�� �� , � �� Gk.

�� D². �� .

�� :

�� , �� , �� . �� 1. �� , �� , �� .

21. �� .

�� , � �� . �� . �� Λ-�� :

��, �� 1, �� , � �� .

�� Λ � �� F.

�� :

� F-�� . �� ;

� F-�� . �� , �� .

�� ��  �� . �� , �� , �� . � �� .

22. �� . �� .

�� :

� �� (��) � �� -, �� ;

� ��  �� ;

� ��  �� .

� �� .

�� �� P, �� F �� , ��

��:

� ��  � �� ; �� .

� ��  �� , ��, �� . �� , �� .

23. �� .

� ��  �� ;

� ��  �� , �� .

��  �� .

24. �� .

�� :

� i=1�n

�� r �� p. �� .

25. �� p�� pp��p�� p��.

�.�� R = ACA^T� � R = ACA^T �� . � � �� . �� , �� .

��  ��, �� R� �� .

26. �� .

� �� � �� 0 (�� 0,6).

� ��  �� 0. �� .

� ��  �� 0.

27. �� (��, ��p��p��, ��, ��).

h_i² - �- �� �� � �� (��) ��, �� .

u_i² � 1 - h_i² � �� , �� u_i² � �� ��, �.�. �� , �� .

�� :

� �� �- �� , �� .

� �- ��, �� .

�� �� � �� + ��.

28. �� .

�� :

��:

� 1 ��  �� , �� R � �� R_h.

� 2 ��  �� R_h � �� .

� 3 ��  �� , �� R_h=��^�

� 4 ��  �� .

29. �� .

�� . � �� . � �� , �� , �� . �� , � �� (�� ).

30. �� p�� p��p��.

��  - �� m �� . �� . �� , �� , �� . �� .

� �� , � �� . �� 1, �.�. �� .

��

�� A= ��

�� , �� .

�

�� 1. �� , �� .

�� p�� p��p��. �� F (�� ), �� . �.� �� , �� , �� . �� :

31. �� . �� . �� .

�� , �� m ��. �� : A. �� : �� , �� . B. �� (��, �� .�.). C. �� , �� (�� , ��-�� ).

�� , �� , �� : . � �� , �� . �� . � �� . ��. �� .

�� n ��, �� (��.1), �� n �� X,Y,Z � �� . �� . � �� , �� , �� .

�� . �� (�� ), �� . �� , �� X, Y, Z �� . ��, �� , � �� . �� . �� �� :� � �� $λ 1$ �� ; � �� $λ 2$ �� , �� (�� ); � �� $λ 3$ � �� .

� �� , ��: � �� , �� , �� .1 �� $λ 1$ . � �� - � �� , - �� (�� .1 �� ). � �� . �., �� .

�� . � �� . �� , �� , �� .

�� XYZ � �� $λ 1 λ 2 λ 3$ �� , �� . �� , �� , �. �. �� m �� m �� .

�� . �� . ��, �� , � �� 0. �� . �� : . �� . �� :

- �� : ;

- �� .�.

�� 0 �� .

32. �� , �� .

1) ��  1.�� -�� , �� 90% �� .(�� . � 3 ��) 2. �� , �� 5% �� (�� . � 4 ��). �� -��: ��, �� (�� ; �� ) �� 1 ��

2)�� . �� (��). �� , �� . �� , �� , �� , �� , �� + �� .(�� . � �� 5 ��)

3)�� . �� -�� 0, ��

�� , �� . �� 2 ��.

33. �p�� . � �� p��.

�� , �� h_i²_,�� i = �� . �.�. �� i-� �� 1, �� , �� . �� 1. �� 0..1. �� h_i². �� . 1.�� . �� . �� m (>10), �� . 2. �� .

R_i*12..i..m²-�� h_i². �� . 3. �� (��3?). �� r � �� .

34. �� .

�� : �� . �� - �� , �� .

�� :

1)��. �� . �� , �� . �� , �� , �� , �� . �� , �� .

2)�� . � �� , �� . � �� -�� . �� .

3)�� . �� -�� , �� . �� . � ��, �� , � �� .

�� , �� 1, �. �. �� (��) �� . �� . ��-��, �� , �� .

35. �� p�� p�� p��.

�� �� . �� , �� , �� . ��, �� . �� , �� . �� , �� , ��

�� .�. �� + � -, �� . �� , �� -�� .

�� ��, ��  �� -��.

36. �� .

�� 2-�� , �� . ��, �� . �� .�. �� + � -, �� . �� , �� -�� . �� �� �� .�. � �� . � �� ��. � �� (�� ). � �� 1 �� 0, �.�. �� . �

�� -��:

37. �� p�� p��. �� . �� , �� .

�� , �� , �� , �� . �� : �� , �� , �� , � �� .

��  �� : �� , �� , �� , �� : , �� i-�� j-� � k-� �� . �� 0, �� . �� -�� , �� N.

�� (covarimin) �� .

�� . �� (�� ). �� , �� Vij - �� -�� bij. .

�� , ��, �� , �� , �� , �� .

38. �� .

�� -�� , �� (R), �� , �.�. �� (�� ). �� . �� , �� , �� . �� m �� (�� ), �� (�� ). �� : Z=A*P (Z-�� (mxn), A-�� (mxr), P-�� (rxn)). �� P=M^-1*A^T*Z. ��, �� -�� , �� , �� , �� , �� 1 ��.�

39. �� , �� .

StatSoftStatistica

�� . ��. �� , �� , �� . �� . T-�� (� �� ).

SPSS

�� :�� , �� , ��/�� , ��, �� .

Clementine-�� data mining, �� -��, � �� .

SAS EnterpriseMiner

�� Enterprise Miner � �� SAS, �� , �� .

40. �� .

� 3� XYZ ��:

� �� - �� X, Y, Z � �� "��" �� Z.

� ��. - �� 3� �� XY, �� Z (�� ).

� �� - �� , � �� Z �� .

� �� - �� , �� 3� �� (�� X, Y � Z �� ), �� (� �� ), �� "��" �� (��, ��, �� .�.).

� 3� �� 

� �� - 2� �� 3� �� . �� ; �� (�� ) �� /�� (�� ). �� X, � �� - �� Y.

� �� . �� - �� . �� X, � �� Y.

� 4�/�� 

� ��.�� - �� (�� ) �� [�� X, Y � Z] �� . �� -�� (X, Y � Z).

� �� - �� (�� ).

� n-�� 

� �� - �� "��", �� (��, �� , �� , �� ).

� �� - �� ; �� .

� ��. ��. - �� (�� , �� 12:00); �� .

� ��. - �� ; �� (�� , �� 12:00).

� �� - �� ; �� .

� �� - �� ; �� (�� , �� 12:00). ��

� �� - �� ; �� (�� , �� 12:00), � �� . �� .

� �� 

� �� - �� , �� . �� , �� .

41. Text Mining.

�� - Text Mining - �� , �� , �� , �� . �� , Text Mining - �� , �� , �� , �� : "�� , �� ".

�� Text Mining �� . �� , �� "��" �� . �� , � �� , �� Text Mining �� , �� . �� , �� - ��.

�� , �� Text Mining �� - �� - �� . �� - �� , �� .

�� - �� - �� . �� .

� �� , �� (�� ) � �� .

� �� - �� , �� .

�� Text Mining, ��, ��, �� , �� .

�� - �� , �� , �� . �� , � �� , �� .

�� (��, ��) �� . �� , �� , �� ; �� , �� . �� , �� , � �� .

� ��, �� Text Mining �� .

42. Web Mining

��: �� .

��:

1. Web Usage Mining � �� (�� , �� ) �� . Server logs and OLAP.

2. Web Structure Mining � �� . PageRank, SpyLog.

3. Web Content Mining � ��, �� , �� www-��. �� .