决策粗糙集理论研究现状与展望_于洪
第 卷 第 期 计 算 机 学 报
38 8
Vol.38 No.8
年 月
2015 8 Au .2015
CHINESEJOURNALOF COMPUTERS g
决策粗糙集理论研究现状与展望
), ) ), ) )
于 洪1 3 王国胤1 2 姚一豫3
)
1 ( )
重庆邮电大学计算智能重庆市重点实验室 重庆 400065
)
2 ( )
中国科学院重庆绿色智能技术研究院电子信息技术研究所 重庆 400714
)
3 ( )
里贾纳大学计算机科学系 里贾纳 S4S0A2 加拿大
、
摘 要 经典 粗糙集理论中的核心概念上 下近似集是通过集合相交非空和包含来定义的 由于缺乏对错
Pawlak .
, ,
误的容忍能力 其实际应用受到了限制 世纪 年代初 等人结合贝叶斯决策理论提出了决策粗糙集模型
.20 90 Yao .
, ,
近年来 该模型逐渐得到重视 并在不确定性信息处理方面得到了广泛应用 该文首先就为什么要提出决策粗糙集
.
、 ,
模型 该模型具有什么特点以及该模型中需要解决的几个问题进行了详细讨论 然后 总结了国内外关于决策粗糙
.
, ,
集模型的研究现状和进展 详细分析了存在的挑战性问题 并深入探讨了未来的研究方向.
; ; ; ; ;
关键词 粗糙集 决策粗糙集 三支决策 数据分析 不确定性 智能信息处理
中图法分类号 号 /
TP18 DOI 10.11897SP.J.1016.2015.01628
CurrentResearchandFuturePers ectivesonDecisionTheoreticRou hSets
-
p g
), ) ), ) )
1 3 1 2 3
YU Hon WANG GuoYin YAO YiYu
g - -
)
1 ( , , )
Chon in Ke Laborator o Com utationalIntellience Chon in Universit o PostsandTelecommunications Chon in 400065
gq g y y f p g gq g y f gq g
)
2 ( , ,
Instituteo ElectronicIn ormationTechnolo Chon in Instituteo GreenandIntellientTechnolo
f f gy gq g f g gy
, )
ChineseAcadem o Sciences Chon in 400714
y f gq g
)
3 ( , , , , )
De artmento Com uterScience Universit o Re ina Re ina Saskatchewan S4S0A2 Canada
p f p y f g g
Abstract As thecentralconcetsinrouh settheor ,theclassicalPawlak lowerandu er
p g y pp
a roximations are defined based on ualitative setinclusion and nonem t overla in
pp q - - py pp g
, , ,
relations resectivel.Conse uentl thetheor suffersfrom anintoleranceoferrors which
p y q y y
,
reatl restrictsitsrealworlda lications.Toovercomethislimitation Yaoandcolleaues roosed
-
g y pp g p p
( ) ’
adecisiontheoreticrouh sets DTRS model inearl 1990s b introducin theBa esian
-
g y y g y
,
decisiontheor intorouhsets.Inrecent ears themodelhasattractedmuch attentionandhas
y g y
()
beena liedinuncertaininformation rocessin.This aeraimsat 1 resentin asurve of
pp p g pp p g y
, ,
motivationsforintroducin theDTRSmodel themainfeaturesofthemodel andthe
the roblems
g
p
,( ) , ,
tobestudiedinthemodel 2 reviewin thefundamentalresults stateofartresearch and
g - -
, ()
challenes and 3 ointin outfuture ersectivesand otentialresearchtoics.
g p g p p p p
; ; ; ; ;
Kewords rouhsets decisiontheoreticrouhsets threewa decisions dataanalsis uncertain
- -
y g g y y
intellientinformation rocessin
g p g
[ ]
1
论是 于 年提出的一种处理不精确、
Pawlak 1982
、
引 言 不一致 不完整信息与知识的数学工具 粗糙集理论
1 .
, 、
作为一种数据分析处理理论 在机器学习 知识发
( , 、 )
粗糙集 也称 集 粗集 理 、 、 、 、 、
Rou hSets Rou h 现 数据挖掘 决策支持与分析 信息安全 物联网
g g
: ; : ( , )、
收稿日期 最终修改稿收到日期 本课题得到国家自然科学基金 重庆市自然科学基金重
61272060
- - - -
( ) , , , , , ( ) , 、 、
点项目 资助 于 洪 女 年生 博士 教授 中国计算机学会 会员 主要研究领域为三支决策 三支聚类 粗
cstc2013 B40003 . 1972 CCF
jj
、 、 : , , , , ,
糙集 区间集 智能信息处理和 智能和数据挖掘等 王国胤 男 年生 博士 教授 中国计算机
Web .E mail uhon cu t.edu.cn. 1970
- @
y g q p
( ) , 、 、 、 、 : , ,
学会 会员 主要研究领域为粗糙集 粒计算 机器学习 数据挖掘 知识技术和认知计算等 姚一豫 男
CCF .E mail wan ieee.or.
- @
ggy g
, , , 、 、 、 、 、
年生 博士 教授 主要研究领域为三支决策 粗糙集 区间集 粒计算 信息检索 智能和数据挖掘等
1962 Web .
:
8期 于 洪等 决策粗糙集理论研究现状与展望 1629
、 ,
云计算 生物信息处理等领域得到了广泛且成功地 糙集的一些基本知识 并给出了概率粗糙集模型理
[ ]
211
-
应用 , ,
. 论研究的 个基本问题 然后 围绕这些基本问题
3 .
粗糙集的基本思想是用可定义集合来刻画不可 ,
解释了决策粗糙集模型的贡献 并综述了该模型在
,
定义集合 从而给出一个概念的上近似集和下近似 ,
这些问题上的已有解决方案 最后 介绍国内外决策
.
集定义 经典粗糙集的近似是基于概念之间的定性 ,
. 粗糙集模型的研究与应用现状 以及需要重点研究
( ) ,
关系 即包含或相交不空 定义的 并不考虑概念相 的主要问题 我们将这个理论模型目前的研究状况
.
,
交的程度 因而不适用于处理很多实际问题 为了解
. ,
介绍给信息科学工作者 希望进一步推动并促进该
、
决Pawlak粗糙集模型过于严格 缺乏容错能力的 领域的研究工作.
,
问题 人们提出了各种概率型粗糙集扩展模型.
[ ]
12
年, 等人 提出了决策粗糙集模型
1990 Yao 2 经典Pawlak粗糙集模型
( , ),
DecisionTheoretic Rou h Sets DTRS 拓广了
- g
[ ]
13
等人 的 概率粗糙集模型 决策粗糙
Pawlak 0.5 .
- 粗糙集主要研究的问题是集合的近似及相关的
集模型的主要出发点是用条件概率定义概念的相交 [ , ]
数据分析和推理方法与算法 1 31 粗糙集理论的重
.
, ,
程度 并用两个阈值定义概率上下近似集.1993 年 要贡献是给出了一种基于等价关系的数据分析方
[ ]
14 提出了变精度粗糙集模型(
Ziarko VariablePreci
-
, 、
法 并给出了一个非常精确 严格的数学描述 粗糙
.
, ),
sionRou hSetsVPRS 从集合包含度的视角给出
g
、
集理论首次形式化地描述了对象不可分辨性 属性
(
了决策粗糙集模型的一个特例 即两个阈值之和为
冗余性及属性约简等重要概念.
) 随后, 和 相继提出了粗糙隶属
1. Pawlak Skowron
,
作为一种数据分析方法 粗糙集主要以数据表
[ ] [ ]
15 1617
-
、 ; ,
函数概念 参数化粗糙集模型 2005年
,
为工具研究属性之间的依赖关系 从而获得有用的
[ ]
18
'
提出了贝叶斯粗糙集模型(
lzak Ba esianRou h
S
y g 分类知识 一个数据表定义为一个有穷对象集和属
.
[ ]
, ); 年, 和 19 提出了博弈
SetsBRS 2008 Herbert Yao
, ( , )
性集的二元组 即 一个属性子集定义
S= U At .
粗糙集模型( , )
Game TheoreticRou hSets GTRS .
- g
, ,
一个对象集上的等价关系 记为 其等价类是基本
E
,
这些工作增进了对粗糙集理论的研究 并且扩大了
,
的可定义子集 通过等价类 我们可以描述或近似描
.
[ ]
2029
粗糙集理论的应用领域 - .
述 的任何一个子集 设子集 表示一个概念
U . XU
,
现实世界中更多的是不确定性信息 如何从这
, ,
所包含的对象集 即该概念的外延 它不一定可以准
、 、
些不精确 不一致 不完整的信息中得到我们需要的
,
确地用 的等价类来描述 也就是说 不一定是一
E X
[ ]
30
,
知识 是广大学者一直关注的问题 决策粗糙集
.
,
组等价类的并集 因此 用一对上近似和下近似来刻
.
,
模型结合概率论展开研究 给出了粗糙集理论的定
画X:
, ,
量描述 以及基于贝叶斯决策论的一个语义模型
( ) { [ ] },
a r X = x U | x X
p ∈ ∩ ≠
、
同时也给出了一个实际 有效的解释和计算阈值
( ) { [ ] } ()
a r X = x U | x X 1
p ∈
,
的方法 为我们研究不确定知识提供了一个新的
, 、
给定任何一个子集 XU 基于它的上 下近
,
思路 近年来 在国内外粗糙集学术会议和有关期
.
, :
似 得到 的一个划分
U
[ , ]
6 810
刊上关于决策粗糙集的研究成果日渐增多 - .
( ) ( ) { [ ] )},
POS X =a r X = x U x X
p ∈ |
, ( ) 、
例如 国际认知信息学系列会议 在 年
ICCI 2010
( ) ( ) { [] },
NEG X =U-a r X = x U x X=
p ∈ | ∩
( )
国际粗糙集与知识技术系列会议 RSKT 自2009
( ) ( ) ( )
BND X =a rX -a rX
年以来都成功举办了以决策粗糙集为主题的专题讨 p p
{ [ ] ([] )}()
= x U x X x X 2
; 、 ∈ | ∩ ≠∧
论 中国 集与软计算 智能及粒计算联
Rou h Web
g
( )、
这 个子集分别称为 的正域 负域
( ) , 3 X POS X
合学术会议 自 年以来 每
CRSSCCWICGrC 2010
- -
( ) ( )
年都举办了以决策粗糙集为主题的分组讨论 此外, NEG X 和边界域BND X .
.
、 ,
《 》 上近似 下近似从定性的角度考虑了两种情况
InternationalJournalofA roximateReasonin
pp g
《 》 即可能性和必然性 上近似解释为如果存在一个
与 FundamentaInformaticae等国际学术期刊出版 . x
,
了以决策粗糙集为主题的专辑 决策粗糙集正在成 的等价对象在集合 中 那么这个对象可能属于
X
.
;
为当前的研究热点 下近似解释为如果一个对象 的所有等价对象
X x
.
,
本文首先简要介绍了 粗糙集和决策粗 都在集合 中 那么它必然属于
Pawlak X X.
计 算 机 学 报 年
1630 2015
() ;
1 阈值 和 的解释与计算
α β
() ( [ ]) ;
概率粗糙集模型 2 条件概率Pr X x 的估计
3 |
() 、
3 概率正 负及边界域的解释与应用.
,
Pawlak粗糙集可以被视为一种定性的近似 下 决策粗糙集模型的研究贡献在于它不仅给出了
近似由集合包含定义而上近似由集合相交非空定 、 ,
概率正 负和边界域这个结果 更重要的是给出了解
, , :
义 该定义不允许任何不确定性 这种优点同时也带 决这 个问题的合理方案 比如 基于贝叶斯决策论
. 3
来它的局限性. 可以通过决策风险最小化获得阈值的计算和解
[ ] [ ]
12 35
, ; ;
在 Pawlak粗糙集中 由于正域是建立在代数 释 通过朴素贝叶斯模型估计条件概率 概率
[ ]
36 37
-
,
包含关系基础上的 因此难以体现概念表示的容错 个区域可以看做是三支决策理论的应用 因
3 .
,
性 这正是经典粗糙集模型的局限所在 针对 ,
. Pawlak 此 决策粗糙集是一个有坚实理论基础同时又实用
[ ]
38 40
-
,
粗糙集模型缺乏容错能力的问题 我们需要考虑 的模型 .
,
Pawlak粗糙集的另一种表示 即将概率近似空间引
,
入到粗糙集的研究中 获得定量粗糙集模型. 决策粗糙集理论研究的 个问题
4 3
[ ]
32 33
和 - 于 年将概率近似空
Won Ziarko 1987
g
( [ ]) ,
间引入到粗糙集的研究中 令 表示任何 在本节中 我们将围绕上一节的 个问题介绍
. Pr X |x 3
一个对象在属于[ ]
的条件下属于 的条件概率 决策粗糙集的已有研究结果
x X . .
, :
那么 可以获得下面的等价条件 4.1 阈值的解释与计算
( [ ]) [ ] , 、 , 、
Pr X x =1 x X 与Pawlak正 负域不同 概率正 负域包含错误
|
( [ ]) [ ] , 分类 正域的错误分类率是 ( [ ]) ,
Pr X x =0 x X= . 1-PrX x 1-
| ∩ | α
( [ ]) [ ] ([ ] ) 负域的错误分类率是 ( [ ]) 这为 和
0 Pr X x 1 x X x X . Pr X |x . α
< | < ∩ ≠∧ β β
, : 给出了一种基于错误分类率的解释 该解释有其直
这样 就得到了Pawlak三个域的另一种表示 .
( ) { ( [ ]) }, ,
观易懂的优点 但是 这并没有给出一种指导思想和
POS X = x U Pr X x =1 .
∈ | |
( ) { ( [ ]) }, 一套有效的方法来解释和获得这两个阈值.
NEG X = x U Pr X x =0
∈ | |
[ ]
33
( ) { ( [ ]) } () 在 年的科技报告中, 和 提
BND X = x U 0 Pr X x 1 3 1985 Won Ziarko
∈ |< | < g
, ,
显然 定性粗糙集中的 个域仅仅使用了概率的两 出了0.5 概率粗糙集模型 该模型随后在 Pawlak
3 -
[ ]
13
,
个极端值 即 和 这种表示为定量粗糙集给出了 等人 的文章中有更进一步的介绍 这个模型的主
0 1. .
一个很好的启示 如果我们将 和 用其他的值来 要理论依据是多数规则( ) 它用一个
. 0 1 maorit rule.
j y
, 、 :
表示 那么就可以获得一种定量粗糙集模型 概率阈值来定义概率正 负和边界域
. 0.5
[ ]
, 12 ( ) { ( [ ]) },
在 年 等人 提出了决策粗糙集模型 POS X = x U Pr X x 0.5
1990 Yao 0.5 ∈ | | >
( , ) ( ) { ( [ ]) },
DecisiontheoreticRou hSetsModel DTRSModel . NEG X = x U Pr X x 0.5
-
g 0.5 ∈ | | <
该模型用一对概率阈值来替换上面所提到的 和 ( ) { ( [ ]) }()
0 BND X = x U 0 Pr X x =0.5 5
0.5 ∈ |< |
, ( ,) 、
设 则 概率正 负和边界域可 , [ ]
1. 0 1 阈值 定量地刻画了多数规则 当等价类 中
<α α - 0.5 x
β β
定义如下: ,
超过一半的元素属于 时 我们可以将 放到
X x X
( ) { ( [ ]) }, ; ,
( ,) 的正域中 当超过一半的元素不属于 时 我们可
POS X = x U Pr X x X
αβ ∈ | | α
( ) { ( [ ]) }, ;
以将 放到 的负域中 当刚好一半的元素属于
( ,) x X X
NEG X = x U Pr X x
αβ ∈ | | β
,
( ) { ( [ ]) }() 时 我们可以将 放到 的边界域中 但这种多数
( ,) x X .
BND X = x U Pr X x 4
αβ ∈ |< | <α
β
( ,)
( ,) ( ,) , 规则并不能解释一般的 阈值
当阈值 αβ 取值为 10 时 我们就获得了 Pawlak αβ .
( ,) ,
, ,(,) 、 关于一般的 阈值的确定 决策粗糙集简单
粗糙集 因此 从形式上看 正 负和边界域拓 α
. αβ - β
[ ]
12
, 地使用了贝叶斯决策理论 对于一个子集 ,
广了 粗糙集 对于构建新的模型来讲 这还 . X U
Pawlak .
{ , c}, c
, 可以构造一个状态集合 其中 和
远远不够 我们需要探讨和解释该模型所用到的基 Ω= X X X X
、 互补
本概念 基本量和语义解释. .
, 、 ,
关于概率粗糙集模型 至少有以下 个问题需 对应于粗糙集中的正域 边界域和负域 我们就
3
[ ]
要解决 34 : 可以构造一个决策动作集 { , , },
Action= a a a
P B N
:
8期 于 洪等 决策粗糙集理论研究现状与展望 1631
其中, , 和 分别代表将一个对象分类到正域、 损耗应该小于或等于将其划分到边界域 ( )
a a a BND X
P B N
, ( ), ; ,
边界域和负域的决策动作 即x∈ POS X x∈ 的损耗 而且 这两种损耗应该小于将这个对象划分
( ), ( ) ( ) : ,
不同的决策动作会导致不 到正域 的损耗 即有关系
BND X x NEG X . POS X .
∈ λ λ <λ
PP BP NP
, , , ( ) ( )
同的分类后果 可能的 种损失函数见表 其中 基于这两个条件 从规则
6 1. λ λ <λ . P ~ N
NN BN PN
, 可以获得以下 个阈值:
第 列函数表示一个对象属于集合 时 采取动作 3
1 X
, , ; ( )
和 带来的损失函数记为 和 第 -
a a a λ λ
λ λ λ PN BN
P B N PP BP NP
,
=
α
( ) ( )
λ -λ + λ -λ
PN BN BP PP
,
列函数表示一个对象不属于集合 时 采取动作
2 X
( - )
λ λ
PN NN
, 和 带来的损失函数记为 , 和
a a a .
,
λ λ λ
P B N PN BN NN =
γ
文档评论(0)