摘要
随著无线网路的快速发展,及应用的日渐增加,在无线网路环境
中使用影像资料,将是一大需求.我们提出一个透过语音来撷取影像
资料库的模组化架构,一方面利用语音介面来克服无线网路连线设备
操作的不便性,另一方面充分运用并弹性结合现存语音及影像资料库
系统.我们定义一套图形描述与查询控制语言,将语音辨识系统独立
出来.我们利用使用者描述的抽象化图形来当作查询的范例图形,以
增加查询的准确度,减少网路频宽的浪费.系统中的资讯皆以标准化
格式表示,我们用XML表示系统中的资料库查询资讯,以SVG表
示系统中的影像资料.一则方便各类资料的处理与转换,同时可与不
同的影像资料库结合.经过系统实作与测试,可以得到相当好的效
果,而资料库查询资料的转换时间占了资料库查询的10 %左右.
关键字 : 语音辨识,影像资料库,图形描述与查询控制语言
Abstraction
As the wireless network is developed rapidly, the applications in
wireless network is increase. In the feature, image will be a popular
data format in the wireless network. Because of the inconvenient
operation in wireless environment, we use the voice to be the input
interface. We use the abstract image describing by the user to be the
sample image of the query, so that we have a more precision query
result and don't waste the network bandwidth. We separate the voice
recognition interface and our system by defining the image
descriptionand query control language. The information of our
system is a standard format, we use XML to describe query
information, use SVG to describe image information, and we can
operate with other image database. We implement and evaluate the
system, and we have the good performance. The query information
transform time is about 10% of the query process time.
Keyword : voice recognition,image database,image descriptionand
query control language
I
目录
第一章简介.................................................................................................................1
1.1 研究动机.......................................................................................................1
1.2 研究目的.......................................................................................................2
1.3 研究方法.......................................................................................................2
1.4 研究成果.......................................................................................................3
1.5 论文架构.......................................................................................................4
第二章相关研究.........................................................................................................5
2.1 行动计算环境...............................................................................................5
2.2 语音介面.......................................................................................................8
2.2.1 语音辨识技术分类.......................................................................8
2.2.2 语音辨识产品介绍.......................................................................9
2.3 可延伸标签语言XML...............................................................................10
2.3.1 XML的目标................................................................................12
2.3.2 XML的应用................................................................................12
2.4 可缩放向量化图形SVG............................................................................13
2.5 以内容为基础之影像检索.........................................................................15
2.5.1 影像资料的可见特性.................................................................15
2.5.2 影像资料的不可见特性.............................................................16
2.5.3 影像资料的查询.........................................................................17
2.5.4 以内容为基础的影像查询系统.................................................18
第三章系统理论与架构...........................................................................................19
3.1 系统架构图.................................................................................................20
3.2 语音辨识介面.............................................................................................21
3.3 图形描述与查询控制语言.........................................................................21
3.3.1图形物件控制命令......................................................................22
3.3.2 资料库查询资讯设定命令.........................................................24
3.4 图形查询引擎.............................................................................................24
II
3.4.1 范例图形产生范例—利用基本图形.........................................25
3.4.2 范例图形产生范例—利用样板图形.........................................29
3.4.3 范例图形的标准化格式.............................................................31
3.4.3 资料库查询资讯的标准化格式.................................................34
3.5 查询产生器.................................................................................................37
3.5.1 资料库查询资讯转换方式.........................................................37
3.6影像资料库..................................................................................................41
3.7查询结果整理..............................................................................................41
3.8查询结果显示介面......................................................................................41
3.9 系统特色.....................................................................................................42
第四章系统实作.......................................................................................................43
4.1 系统发展环境.............................................................................................43
4.2 系统执行流程.............................................................................................43
4.3 系统功能说明.............................................................................................44
第五章系统效能分析...............................................................................................51
5.1 抽象化图形的搜寻准确度.......................................................................51
5.2 搜寻时间分析...........................................................................................55
5.3 随机查询之查询次数分析.......................................................................56
5.3.1 针对目标图形的随机搜寻.........................................................57
5.3.2针对相似图形群组的随机搜寻..................................................58
5.3.3 抽象化图形与随机相似图形查询之比较.................................62
5.4 使用者查询方法之比较.............................................................................64
5.5 查询时间与资料库数量之关系.................................................................65
第六章结论与未来展望...........................................................................................68
6.1 结论.............................................................................................................68
6.2 问题与讨论.................................................................................................69
6.3 未来展望.....................................................................................................70
参考文献.....................................................................................................................71
III
图表目录
图2-1,行动计算架构[4]............................................................................6
图2-2,二元映像格式图形放大后失真...................................................13
图2-3,向量式图形放大后不失真...........................................................14
图2-4,Tad Lane的SVG测试图形[22]..................................................14
图3-1,系统架构图...................................................................................20
图3-2,图形描述与查询控制语言架构图...............................................22
图4-1,系统主画面...................................................................................45
图4-2,资料库查询资讯设定画面...........................................................46
图4-3,图形物件形状设定画面...............................................................47
图4-4,图形物件颜色设定画面...............................................................47
图4-5,图形物件位置设定画面...............................................................48
图4-6,图形物件尺寸设定画面...............................................................48
图 4-7,范例图形设定画面......................................................................48
图4-7,范例图形绘制画面.......................................................................49
图4-8,搜寻结果画面...............................................................................50
图5-1,花卉图形资料库的抽象化图形与目标图形...............................52
图5-2,花卉图形资料库抽象化图形之特性查询结果...........................52
图5-3,史奴比图形资料库的抽象化图形与目标图形...........................53
图5-4,史奴比图形资料库的抽象化图形之特性查询结果...................53
图5-5,猫图形资料库的抽象化图形与目标图形...................................54
图5-6,猫图形资料库的抽象化图形之特性查询结果...........................54
图5-8,针对目标图形的随机搜寻之查询次数分析...............................57
图5-9,针对相似图形群组的随机搜寻之查询次数分析 (花卉图形资料
库,相似图形群组数目3).................................................................59
图5-10,针对相似图形群组的随机搜寻之查询次数分析 (花卉图形资料
IV
库,相似图形群组数目10)...............................................................59
图5-11,针对相似图形群组的随机搜寻之查询次数分析 (史奴比图形资
料库,相似图形群组数目3).............................................................60
图5-12,针对相似图形群组的随机搜寻之查询次数分析 (史奴比图形资
料库,相似图形群组数目10)...........................................................60
图5-13,针对相似图形群组的随机搜寻之查询次数分析 (猫图形资料
库,相似图形群组数目3).................................................................61
图5-14,针对相似图形群组的随机搜寻之查询次数分析 (猫图形资料
库,相似图形群组数目10)...............................................................61
图5-15,抽象化图形与随机相似图形的查询效能比较 (花卉图形资料
库,相似图形群组数目3).................................................................62
图5-16,抽象化图形与随机相似图形的查询效能比较 (史奴比图形资料
库,相似图形群组数目3).................................................................63
图5-17,抽象化图形与随机相似图形的查询效能比较 (猫图形资料库,
相似图形群组数目3).........................................................................63
图5-18,使用者查询方法之比较.............................................................64
图5-19,查询时间与资料库大小之关系-利用颜色特性搜寻...........65
图5-20,查询时间与资料库大小之关系-利用材质特性搜寻...........66
图5-21,查询时间与资料库大小之关系-利用形状特性搜寻...........66
图5-22,查询时间与资料库大小之关系-利用综合特性搜寻...........67
1
第一章简介
1.1 研究动机
由於无线通讯设备的普及,例如:行动电话(mobile cell),PDA个人数位助理
器 (personal digital assistant),手提式电脑 (notebook) 等皆可以用来传送,接收
讯息.无线网路频宽的增加,和无线传输技术的改进,我们认为无线环境的发展
一定会愈来愈快,也会愈来愈好.因此,在无线环境中发展应用系统是必须要作
的.
无线环境中有许多的问题是我们需要克服的,例如 : 断线的频繁,电源的
限制,操作的不便等等.其中操作的不便是我们想要克服的一个问题.无线通讯
设备由於要顾及机动性,产品的体积都比较小,输出入装置就相对被简化.我们
看到现在的无线产品大都只有数字键,和几个方向键,比较小型的笔记型电脑的
键盘也是非常小,不太好操作.针对这样的情况,我们想到利用语音介面来作输
入介面,改善无线环境中的操作不便性.发展语音介面的应用系统,另一方面对
於一些身体有缺陷,不方便使用键盘操作电脑的使用者来说,可以提供一个新的
方式来使用电脑.
无线环境的频宽愈来愈高,要在无线环境上传输影像资讯是一件指日可待的
事.传统的影像资料库,对於范例图形的产生,大部份都是随机产生一组待选的
范例图形,然后由其中选出一张图形当作范例图形来进行影像检索.在无线环境
中,如果要先准备一组待选的范例图形,就需要很大的频宽来传这些范例图形,
而且使用者并不一定会满意系统随机所选的图形,如果不满意,则系统必须重新
准备一份范例图形,这在无线环境中是很浪费频宽的.我们认为由使用者描述范
例图形,再作影像资料搜寻,这样可以提高搜寻的准确度,降低搜寻的次数,也
就可以减少频宽的浪费.
2
1.2 研究目的
我们看到了无线环境的发展,也了解无线环境的问题,我们的研究目的是建
立一个在无线环境中利用语音来撷取影像资料的模组化架构.系统的设计目标,
是希望能够使用不同的语音查询介面,让使用者可以在无线环境中查询不同影像
资料库的影像资料.
语音辨识和影像资料搜寻是目前非常重要的技术,两种研究也都已经有不错
的成果出现.但是两方面的研究都是封闭的,语音辨识的研究者主要是研究如何
提高语音辨识的正确率,而影像资料搜寻研究者主要是研究如何使影像资料搜寻
更快更正确.这两方面的研究可以是独立的,但我们想要让使用者在无线网路环
境上能够快速而有效地撷取影像资料库,势必要结合语音辨识和影像资料搜寻的
技术.
为了要能够结合这两个研究,我们必须将整个系统架构,影像资料表示的方
式都作一个完整的考量,才能顺利的结合这两个研究.提出整个模组化的系架构
并实作出来是我们的研究目的.
1.3 研究方法
使用者在无线环境中,有很高的机动性,我们必须让使用者可以轻易配合不
同的语音辨识介面和影像资料库.另一方面,我们将系统模组化,尽量使用现有
的系统,这样只要语音辨识系统,影像资料库系统有更新的时候,我们的系统也
可以同步更新,这样可以让使用者永远有最新的系统可以使用.
要将语音辨识系统独立出来,我们定义了一套图形描述与查询控制语言
(image descriptionand query control language),结合语音辨识可以将使用者的口语
转换成系统可以了解的命令.图形描述与查询控制语言是利用关键字萃取的技术
来完成口语的转换,因此可与任何一种语音辨识介面结合.
3
为了要与不同的影像资料库结合,我们利用XML表示系统中的资料库查询
资讯,SVG表示系统中的影像资料,这使得我们系统中的资讯都是标准化的格
式,只要资料库支援这两种资料格式,我们就可与之结合.如果资料库不支援这
两种资料格式,透过XSLT的转换我们可以将所需之资讯转换成资料库可以了解
的格式.透过XML和SVG这两种标准的语言来描述我们系统的资讯,只要配
合XSLT转换,我们就可以支援不同的影像资料库.
1.4 研究成果
我们在这篇论文中提出一个利用语音撷取影像资料库的模组化架构.整个架
构包括 : 语音辨识介面,图形查询引擎,影像资料库,查询结果整理和显示介
面.
我们利用图形描述与查询控制语言,可以利用口语描述抽象化图形,当作影
像查询的范例图形,这样可以得到非常好的效果.
我们将系统中的资料库查询资讯用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在与其他的系统结合时,资讯交换
变得很容易.
我们实作的系统采用声硕科技的「说亦通」中文听写系统来当语音辨识介
面,影像资料库是采用IBM的QBIC 影像资料库.我们建立了三种图形资料库
来作测试,一是花卉图形资料库,二是史奴比图形资料库,三是猫图形资料库.
我们利用使用者描述的抽象化图形当范例图形来作影像资料搜寻,利用形状
特性搜寻,三种图形资料库都查询一次就可以得到结果.我们使用抽象化图形当
范例图形,这样的结果我们认为不错.
我们分析查询时间,发现资料库查询资料的转换时间占了10 %左右,这样
的比例,我们认为不是很大负担.
我们的系统提供了一个操作电脑的新方式,这是我们系统所作的贡献.
4
1.5论文架构
我们的论文共有六章,现详述如下 :
l第一章简介 :
介绍我们的研究动机,研究目的,研究成果,并简介本篇论文的结构与章节
的介绍.
l第二章相关研究 :
介绍与我们论文相关的研究课题.
l第三章系统理论与架构 :
介绍我们系统的理论基础 : 图形描述与查询控制语言,资料标准化格式,
资料库查询资讯转换方式,及系统架构.
l第四章系统功能 :
介绍系统发展环境,系统执行流程,及系统功能说明.
l第五章系统效能分析 :
介绍我们所作的实验和实验结果.
l第六章结论与未来展望 :
介绍我们的结论与未来发展的方向.
5
第二章相关研究
2.1 行动计算环境
「行动计算」顾名思义便是在无线网路环境之下进行资讯的传递与处理,是
属於相当便捷快速的资讯服务方式,以达到无空间与时间上的限制,皆能取得的
服务.目前由於网路的急遽发展,使得资讯的传递更加的迅速,而资讯的资料量
也相对地增加,加上电脑的运算速度越来越快,固定式的点对点的有线传递方式
已不能满足现代人的需求.
由於无线通讯设备的普及,例如 : 行动电话 (mobile cell),PDA个人数位
助理器 (personal digital assistant),手提式电脑 (notebook) 等皆可以用来传送,
接收讯息.无线网路频宽的增加,和无线传输技术的改进,使得我们可以利用无
线通讯设备来连接网际网路撷取全球资讯网的资讯.Daninel BarBara 提出的行
动计算环境架构有下列部份 (如图一) [4]:
1.Mobile Unit(MU):为行动式电脑.即具有无线传递资讯能力的可携式电脑
或掌上型电脑,例如:笔记型电脑(notebook),个人数位助理(PDA)等
等.使用者可带著它随处移动,随时经由无线网路取得资讯,不受时间,空
间的限制.
2.Mobile Support Station(MSS):为行动支援主机或基地台.亦称Base Station
(BS).是指固定在有线网路上与网际网路相连的某一端点,做为行动式电
脑与有线网路的媒介.其主要是提供无线通讯的能力,能和行动式电脑做资
讯相互的沟通,传递讯息资料,并提供资讯服务.
3.Fixed Host(FH):为固定式主机.亦称Stationary Host(SH). 即 指 目 前 有
线网路上的主机,以有线的方式连接上网际网路.
4.Wireless Cell:一部MSS所发射的电波能涵盖的范围.
6
图2-1,行动计算架构[4]
利用许多的mobile client所构成的无线网路环境,可以视为一个分散式系
统.在无线网路环境中仍有一些特性是分散式系统所没有的,Daniel Barbara 提
出下列四种特性:[4]
1.通讯的非对称性 (asymmetry in the communication):在无线网路环境中,上
传 (从客户端至伺服器端),与下传 (从伺服器端至客户端)的频宽是不一样
的.通常下传的频宽远大於上传的频宽.
2.断线的频繁 (frequent disconnection):无线通讯设备都有很高的机动性,使
用者可以经常的开辟连线设备,这就造成断线的情形.使用者在无线网路中
是会移动的,如果使用者进入信号微弱的区域,也很容易造成断线.
3.电源的限制 (power limitation):行动式设备是很依赖电池电源的,但由於电
池的寿命受限,相对的也影响到行动式设备的便利,虽仍能接有线电源,但
在移动中或某些环境下,有线电源是无法使用的,仍要靠电池来维持.
4.萤幕尺寸 (screen size):为了顾及方便性,一般的无线通讯设备都只有小尺
寸的萤幕.使得无线网路环境上的应用程式介面需要特殊设计.
7
行动计算环境虽然提供我们一个相当便利的资讯处理环境,但是其环境仍然
有相当多的问题需要解决与改善.M. Satyanarayanan提出了在无线网路环境下
可能会遭遇到的问题:[30]
1.资源缺乏(resource poor):无线网路环境上,使用者在使用的配备都是属於
移动性高的设备,如notebook,PDA或WAP手机等.我们考量的是配备上
的可携性,即指它的大小,重量皆要适合使用者携带,所以在硬体的设备上
都会受到某种程度上的限制.所以行动式设备所能处理的功能会受到限制而
阻碍到效能的发挥.
2.连线的效能和可靠度(connection performance and reliability):在 无 线 网 路 环
境上传输资料,最怕的是重要的讯息被阻碍,而导致断线,尤其在建筑物中
最易发生,资料如何能不受阻碍或干扰的情形下到达使用者的设备上,是一
个重要的研究课题.而在无线网路的连接上,若是由一个高频宽
(high-bandwidth)的网路传输资料到低频宽(low-bandwidth)的网路,有
时会因为频宽的不足而影响资料的传递品质.
3.安全性的考量(security consideration):由於行动式设备是以无线传输的方
式传递资料,因此很容易就会被窃取到资料.所以利用完善的编码技术来达
到资讯的安全性是很重要的.
4.有限的能源(finite energy source):行动式设备是依赖电池电源的,因此影
响到行动式设备的便利.
无线通讯设备上有种种限制,我们必须思考一个比较好的方式,让使用者能
够很方便的使用网际网路上资料.网际网路上的资料,由於频宽的增加,不再只
是文字资料,也有许多的影像资料.无线网路环境中操作的不便,使用者无法使
用一般的键盘来作复杂的输入,语音输入就成为最自然的选择.而如何利用语音
输入来完成影像资料的查询就成为一个可以研究的课题.
8
2.2 语音介面
人类最自然的沟通方式,应非语音莫属.微软总裁比尔 盖兹在"拥抱未来"
一书中提到「在未来的五年当中,语音辨识,社会介面和高速公路连结器,都将
放入主要的应用软体中.到时候,不论公司或个人都会对那些可提升效率,及生
产力的新版本趋之若鹜.」表示语音辨识技术是未来软体三个新兴技术之一[18].
但是语音输入在电脑上的发展却是困难重重的.在语音输入方面,语音辨识
必须与自然语言处理系统结合,以使电脑可以了解口语的指令.这里包括两大领
域,一是语音辨识,二是自然语言处理.语音辨识的部份,由於现今半导体技术
的突飞猛进,数位讯号处理器 ( digital signal processor,DSP ) 的功态愈来愈强
大,甚至连个人电脑 ( personal computer,PC ) 的功能也愈来愈强大,因此现在
要作语音辨识已不再是一件遥不可及的事.只是辨识的正确率,或对不同发音的
接受程度上,尚未尽如人意.自然语言的处理,就更是一项高难度的工作.
2.2.1 语音辨识技术分类
工研院电通所张照煌博士,把语音辨识技术,根据词汇大小,系统训练,及
发音方式做了以下的分类.[45]
l依词汇大小分为 :
n小字汇 (小於100词).
n中字汇 (100 - 1000词).
n大字汇 (1001 - 10000词).
n极大字汇 (大於10000词).
l依系统训练分为 :
n特定语者 (Speaker-Dependent):使用前需训练数十分钟至数小时.
n非特定语者 (Speaker-Independent):不需训练,可立即使用.
n系统调适 (Speaker-Adaptation):数分钟至数十分钟的调适训练.
9
l依发音方式分为 :
n单字音:字与字需断开.
n单词连续发音:分为孤立词,及词词断开,连接成句两种.
n整句连续语音: 分为关键词萃取(Keyword Spotting)及全句辨识两种.
2.2.2 语音辨识产品介绍
我们可以参考一下现在市面上语音辨识的产品介绍,就大概可以知道语音辨
识发展的成熟度如何.
声硕科技承接了台大李琳山教授所研发的「金声三号」,将之商品化,推出
了国内第一套辨识率高,界面友善的「说亦通」中文听写系
统.最新版的说亦通2000 有下列特色:[47]
1.内建专业词库,内建电脑通讯,法律规章,时事新闻等专业词库,专业行话
一样轻松辨识.
2.适用所有应用软体,直接支援所有应用软体,如Office 2000,Office 97,
Outlook,Corel Draw 8.0,I.E,Netscape,ICQ及网际搜寻等.
3.个人专属语音模型.经由口音训练系统,为你量身制作个人语音模型,提升
辨识率.
4.整篇文章学习功能.可剪贴转载整篇文章或及特定文件,使电脑了解你的专
业语法.
5.智慧型可携式设计,个人专属语音档案及自建词库均可带著走.
6.每分钟听写150字以上,辨识率可达95%以上.
7.独具自动标点符号系统.
8.拥有多功能语音控制系统,声控电脑不是梦.
9.整合式工具列,统合语音辨识,语音控制及线上求助等功能.
10.内建词组六万组,使用者还可不受限制地自订个人专用词库.
11.自动线上学习功能,让你的电脑愈用愈聪明.
10
IBM 推出的「Via Voice快乐颂」语音输入软体,是利用IBM 自己所发展
的语音辨识引擎所研发的.这个产品有下列特色: [40]
1.直接听写到 Microsoft Office,Lotus SmartSuite.
2.在CICQ,ICQ等不具备语音能力的应用程式直接听写.
3.连续语音输入,平均每分钟听写100个字以上,辨识率可达98%.
4.提供多媒体操作教学,只要语音输入三句话,立即可以上线使用.
5.提供6万个基本词汇,20万个词汇备份字典,另有6万个使用者自订词汇.
6.配合语音命令,轻松作文字更正与修改.
7.具备学习功能,可以不断提高辨识率.
8.允许多位使用者在同一台电脑上使用,并建立各自的口音模型.
由以上的功能我们可以知道语音辨识的技术已有一定的水准.虽然不是尽善
尽美,但也还可以接受.我们就利用现成的语音输入软体来当作语音辨识介面,
使我们可以了解使用者的语音命令.
使用者的语音命令在我们的系统中是用来作影像资料搜寻.语音经过语音辨
识介面后,就变成电脑可以处理的文字形式.我们希望能够利用这些文字来完成
影像资料搜寻.这些文字首先必须能够表示影像资料,再来是查询命令.用文字
表示影像资料,我们使用可缩放向量化图形 ( Scalable Vector Image, SVG ) 来作
我们的语言.SVG 利用可延伸标签语言 ( Extensible Markup Language, XML )
为基础来描述向量图形的影像资料.我们接下来介绍XML及SVG.
2.3可延伸标签语言XML
可延伸标签语言 (Extensible Markup Language, XML)[9][44]是标准通用标签
语言 (Standard Generalized Markup Language, SGML) [42]的 子 集 合.XML被用来
描述XML文件和处理XML件的部份行为.XML是一个开放的,以文字为基础
的标签语言,它可以提供资料的结构及与语意有关的资讯.
11
标准通用标签语言(Standard Generalized Markup Language, SGML)是提供
描述电子文件的规范,即提供对文件进行结构化的法则,当文件经由这种标准通
用的结构化处理后,就可被广泛的使用.SGML在被制定时就没有预期要应用在
某些特殊的软体上,所以能满足不同领域的使用者,而文件可以被储存在不同的
平台上.同一份SGML的文件可以在不做任何变更修改的条件下,就可以被不
同的的应用软体来使用,且经由每一个应用软体产生的效果可能完全不一样.
SGML标示语言的优点在於稳定性高,可携性高和完整性高.
l稳定性高:国际标准规范,因此公信度高,而结构也较严谨.
l可携性高:文件可以跨平台使用,甚至可被不同的应用软体来使用.
l完整性高:制定时就考虑要满足广泛的使用者,所以其规范制定较完整,可
满足不同应用领域的需求.
William J. Pardiy 指出XML保留了SGML的主要优点: [29]
lXML为通用的标签语言;作者能定义自己的标签集( tag set ).
l文件具有自我描述立能力.
l文件的有效性可以被确认.
Bert Bos有提到十点XML的特性[6]:
1.XML是一种将结构化资料放在文字档中的一种方法.
2.XML看起来像是HTML,但却不是HTML.
3.XML是文字档,但不代表容易阅读.
4.XML是一系列的技术.
5.XML是冗长的,但这不是问题.
6.XML是"新"的,但不是"全新"的.
7.还不知道.
8.还不知道.
9.还不知道.
10.XML 是跨平台,而且免费.
12
2.3.1 XML的目标
XML是为了能有效地在Web中运作而设计的.但是,XML仍能在Web以
外的环境中运作.例如 : 使用XML当作一种资料转换格式,使用XML以便处
理Web资料.XML的规格中列出XML的目标 : [44]
lXML要能在网际网路中直接地使用.
lXML应广泛支援不同种类的应用程式.
lXML应与SGML相容.
l处理XML文件的程式应很容易撰写.
lXML选择性功能 ( optional feature )应保持在最少数目,理想情况为零.
lXML文件必须易读且清楚明了.
lXML文件应可被快速制作.
lXML的设计应力求严谨与简明.
lXML文件应易於产生.
lXML标示符号不可太过精简.
2.3.2 XML的应用
由於XML是经过良好的设计,许多XML的应用也就迅速出现 :
l同步多媒体整合语言(Synchronized MultimediaIntegration Language, SMIL)
[27].
l数学标签语言( Mathematical Markup Language, MathML )[12].
l资源描述架构( Resource Description Framework, RDF ) [33].
lXML链结语言( XML Linking Language, XLink )[35].
l可延伸样式表语言( Extensible Stylesheet Language, XSL )[25].
l可缩放向量图形( Scalable Vector Image, SVG ) [24].
13
2.4 可缩放向量化图形SVG
可缩放向量化图形 (Scalable Vector Image, SVG) 是利用XML语言来描述
平面图形的一种语言[8][24].SVG是用XML语言来描述的,是以字元为基础的
(text-based)图形描述方法.这样许多现有的查询引擎就可以将SVG拿来作索引
(index).使用者也可以查询图形中的文字资料,例如 : 一个图形中的文字说明,
地图中某一街道的名称等等.
现今网际网路上的影像大都是以二元映像格式 (bitmap format) 储存,由於
要将每一像素(pixel) 的值都存起来,因此每一张影像所占的空间都非常大.即
使利用许多的压缩方法,例如 : JPEG,GIF,PNG等等,还是无法令人非常满
意,造成影像资料在网际网路上传输的效率一直不是很好.由於二元映像格式是
储存像素的资料,当我们要作放大,或缩小就会有很大的失真 (如图2-2).
SVG所采用的向量式图形不储存每一像素的资讯,而是储存图形中的形状
( shape ) 与路径 ( path ).因为一张影像是由直线,椭圆,弧形,长方形和其他
形状所构成,经由记录所有形状的几何资讯就可以描述出一张影像.只要改变形
状的几何资讯,我们就可以轻易达到缩放 (scalable)和其他的功能.由於每一次
影像的改变,都是由新的几何资讯来绘制,不会有失真的情形出现 (如图 2-3).
图2-2,二元映像格式图形放大后失真
14
图2-3,向量式图形放大后不失真
由以上的说明,我们可以知道SVG采用向量式图形的理由.Tad Lane有对
SVG与其他影像档案作一个比较[22],他利用图2-4来作测试图形,结果如下:
lGIF-2,420 bytes.
lPNG-1,541 bytes.
lSVG-550 bytes.
我们由以及的结果可以看出来,委利用SVG来描述图形,的确可以有效的
降低图形档案大小.这对节省网路传输的频宽是非常有帮助.另一方面由於SVG
采用XML来描述,SVG就可以被拿来当作是一个标准的介面,成为网路上描述
图形的标准语言.
图2-4,Tad Lane的SVG测试图形[22]
15
2.5 以内容为基础之影像检索
一张图片可以胜过千言万语.因此,如何将影像纳入资料库作管理,一直是
很多学者的研究课题.而其中的影像资料检索 (image retrieval),更是吸引了无
数的学者的投入[3][5][23][37].
影像资料不同於文字资料的地方,在於影像资料是由每一像素的颜色值所构
成的.我们很难用一般的文字来完全描述一张影像资料.为了作影像资料的搜寻
与管理,我们必须对影像资料作一分析.Y. A. Aslandogan和C. T. Yu 将影像资
料分成可见特性 (visual features) 和不可见特性 (nonvisual features) [3].
2.5.1影像资料的可见特性
影像资料的可见特性,是指影像资料中我们可以实际感觉的部分.这是我们
对一个影像资料最直接也是最难描述的部份.A. Yoshitaka, 和T. Ichikawa,将可
见特性分成下列四种 : [37]
1.颜色 (color) : 我们可以用不同的颜色的表示方式来表示颜色,常见有
red-green-blue (RGB), hue-saturation-intensity (HIS), 等等的方式.我们可以利
用影像资料中每一点的颜色,来分析影像资料.例如 : 颜色统计资料 (color
histogram),A.P. Berman, L.G. Shapiro提出将颜色资料配合空间关系(spatial
relation)资料[5],这样可以得到更详细的资讯.
2.材质 ( Texture ) :材质是影像资料中重复出现的简单样式.这也是影像资料
很重要的一个特性.材质分析可分两种 : 统计的分析 (statistical analysis)
和结构的分析(structural analysis).
l统计的分析是在一材质视窗 (texture window) 量测各种性质的变化强
度.例如:对比 (contrast) 程度:高对比的班马皮肤和低对比的大象皮
肤.粗糙(coarseness) 程度:细密的鹅卵石和粗糙的石头.方向性
(directionality): 有方向性的纺织品和没有方向性的草地.
16
l结构的分析是从影像资料中设法得到材质元件 ( texture element ),用来
决定形状并且推测出这些元件的放置法则(placement rule).放置法则描
述了元件之间相互摆设的关系,并且也要量测连接性(connectivity) : 立
即相邻的元件数目,密度 (density) : 单位范围内的元件数目,一致性
(regularity) : 元件摆放的方式是否相同.
3.空间关系(spatial relationship) : 空间关系是用来描述影像资料中,各个物件
的相对位置.Y. Gonget al. 定义了八种空间关系[19]:分离 (disjoint),接触
(meet),部份重叠 (overlap),包含(contain),覆盖(covers),在内部 (inside),
被覆盖 (covered-by),平等(equal).地理资料库(geographical databases) 是
这种方法的最典型应用[14][20][26].
4.形状(shape) : 利用影像资料中各个元件的形状来作查询.形状的来源有二
种 : 一是给一张包含有所要查询形状的图片或影像资料;二是使用者徒手
绘出的形状.
2.5.2 影像资料的不可见特性
一些商业化影像资料库系统,经常使用关联式资料库的技巧来增强影像资料
库的资料型态.用来描述影像资料的栏位有 :影像资料的来源 (source),建立的
日期与时间,内容型态 (media type),解析度(resolution),输入装置 (input
device),压缩方式(compress method),随意的文字注解 (free text annotations)等
等.这些都是影像资料中主要的不可见特性.
说明 (caption) 与注解,是对一个场景 (scene)随意的文字描述.这样的方
式对使用者来说是很自然的方式,一般的文字查询方法也可以应用.但是,不同
的人对於同样的场景会有不同的描述.人们用不同的话来描述,或描述同一张影
像中不同的部分,而且每一个人描述的详细程度也不一致.因此,用文字来描述
一张图会造成很大的混淆(ambiguity) [1][31][36].
17
结构化描述 (structured description) 可以利用有限制的自然语言,符号
(symbolic),或图示(iconic)来描述影像资料中物件(objects) 的性质(attributes),
和关系 (relationship).[2][23][38].
2.5.3 影像资料的查询
Yoshitaka 和T. Ichikawa 认为一个影像资料的查询以查询中所包含的可视
特性,可分为下列四种 : [37]
1.简单的可视特性查询 (simple visual feature query) : 使用者利用指定某些特
性的大小,来查询影像资料.例如 :
"寻找一张有 50%红色,25% 绿色,25% 蓝色的影像"
2.特性组合查询(feature combination query) : 使用者组合不同大小与权重的
特性,来查询影像资料.例如 : "
"寻找一张绿色有树木材质影像,其中颜色占75%,材质占25%"
3.区域特性查询 (localized feature query) : 使用者利用指定在影像画布
(canvas)中某个区域的特性值来作影像查询.例如 :
"寻找一张上半部天蓝色,下半部为绿色的影像资料"
4.范例查询 (query by example) : 系统本身先随机产生一组影像资料,供使用
者挑选出一张影像资料,当作范例.使用者可利用此范例,来查询与范例中
某个特性相像的影像资料.例如 :
"寻找与范例有相同材质的影像资料"
依使用者从范例影像中撷取的部份来作的查询条件,可分成下列四种 :
1.物件查询 (object query) : 使用者利用描述影像中某个物件的特性,而不是
描述整张影像,来作查询条件.例如 :
"寻找有一辆红车在中央的影像"
18
2.使用者定义性质的查询(user defined attribute query) : 使用者利用指定使用
者定义性质的大小来查询.例如 :
"寻找一张解析度300X600,日期为2000/6/5的影像."
3.物件关系的查询(object relationship query ) : 使用者利用描述物件的性质和
关系来作查询.例如 :
"寻找一张男孩手拿网球拍的影像"
4.概念式查询(concept queries) : 某些系统可以让使用者利用系统所撷取出来
的特性,来定义一些概念.例如,我们可以定义海滩为 :
"黄色的圆形在上方,很大的蓝色四方形在中间,底部是沙子的颜色"
2.5.4 以内容为基础的影像查询系统
QBIC(Query By Image Content) 是由IBM Almaden 研发中心所发展的一套
影像检索系统[16][17][28][41].QBIC可以使用颜色 ( color ),材质 ( texture ),
形状 ( shape ) 等可视的特性,和文字 ( text ) 的不可视特性来作查询.它提供了
完整的程式发展介面( application programming interface, API ),可以让我们发展
自己的影像检索系统.
中央研究院资讯科学研究所,研发出以影像内涵为基础的台湾鱼类查询系
统.可以利用颜色和形状来作鱼类的查询.先在随机产生的五条鱼中,选出与欲
查询之鱼类最相近之图片.然后设定查询时的形状,颜色的优先程度.就可查询
出与查询最接近的鱼[46].
Oracle8i Visual Information Retrieval是Oracle 资料库所提供最新的功能,它
能提供使用者将影像资料作完善的管理.它可以利用以下的特性来作查询 :
l广域的颜色( global color ) : 颜色的值与区域无关.
l区域的颜色( local color ) : 颜色的值与区域有关.
l材质( texture ) : 影像中重覆出现的样式( pattern ).
l结构 ( structure ) : 也就是影像中的形状 ( shape ).
19
第三章系统理论与架构
我们的研究目标,是建立一个在无线环境中利用语音来撷取影像资料的模组
化架构 ( modular framework ).系统的主要目标,希望能够用一致的语音查询介
面,让使用者可以在无线环境中查询不同影像资料库的影像资料.系统中所有的
功能皆已模组化,要更换语音介面,或是增删影像资料库,都是可以轻易完成的.
在无线环境中,无线连线设备的要求是轻薄短小,这造成了操作的不便.行
动电话,PDA等等的设备都没有很大的输出入装置.因此,我们利用语音来当
作输入介面,让使用者可以利用语音来搜寻影像资料.要建立一个由语音介面来
撷取影像资料的系统,必须考量下列事项 :
l语音辨识介面 : 透过这个介面我们可以将使用者的口语转换成文字.
l查询的表达与产生方式 :我们定义了一套将文字转换成控制命令的图形描
述与查询控制语言,这个图形描述与查询控制语言可以让使用者产生影像查
询所需的范例图形与查询条件.
l资料库查询资讯和影像资料的标准格式 : 我们利用XML语言来描述所有
的资料库查询资讯,资料库查询资讯需要作转换时,只要经过XSLT的转
换.我们可以让使用者同时搜寻多组的影像资料库,只需面对相同的使用介
面.我们的系统是在无线环境上运作,如何用最佳的方式来表达影像资料,
降低网路传输的负担,是我们首要的目标.我们利用SVG来描述影像资料,
可以符合我们的需求.
l资料库查询资讯转换 : 在我们的系统之中所有的资讯都已经建成标准化的
格式,因此,对於不同的资料库系统,我们必须作不同的转换才能得到每个
资料库所需要正确的资讯.
20
3.1系统架构图
我们已经解释了我们系统的目的和所要解决的问题,底下我们将说明系统架
构图(如图3-1),共有六大部份:
l语音辨识介面.
l图形查询引擎.
l查询产生器.
l影像资料库.
l查询结果整理.
l查询结果显示.
语音介面
范例图形及影像资
料库标准化格式产
生器
影像资料库
图形描述与
查询控制
语言
xml
档案
查询结果整理
影像资料库传回之影像与文字资料
范例图形产生及查
询修改
影像与文字资料
语音
输入
查询结果显示
DB1
query1
查询产生器1
DB2
query1
查询产生器2
DB3
query3
查询产生器3
DBn
queryn
查询产生器n
query4
查询产生器4
...
图 形 查 询 引 擎
::
图3-1,系统架构图
21
3.2 语音辨识介面
语音辨识介面(speech recognition interface) : 将使用者的口语转换成文字字
串,让电脑可以作一步的处理.这一部份有现成的套装软体,或API可以参考使
用.一般的套装软体可将语音输入视为一种输入法,因此使用者可选择不同的语
音辨识软体来作介面.我们利用图形描述与查询控制语言(image descriptionand
query control language)来将文字字串转换成控制命令.
经过语音辨识后的文字字串,必须符合我们图形描述与查询控制语言的定
义,如此我们才能真正了解使用者的意思,完成使用者的命令.如果我们不定义
一组控制命令,那麼对於命令字串的处理,就需要自然语言处理(nature language
process) 的技术.这一方面的技术现今仍不太成熟,所以我们定义一组控制命令
的方式来了解使用者的语意.
3.3图形描述与查询控制语言
图形描述与查询控制语言可以让使用者产生范例图形,和设定影像资料库的
查询条件.图形描述与查询控制语言包含两大类,如图3-2 :
l图形物件控制命令 : 用来控制范例图形中形状物件(shape object) 的 状 态.
n图形物件操作命令
n图形物件可视特性设定命令
n图形物件可视特性修改命令
l资料库查询资讯设定命令 : 用来设定资料库查询条件,与图形相关特性资
料.n设定查询条件
n输入图形物件之不可视特性
22
图形描述与查询
控制语言
图形物件操作命令
图形物件可视特性
设定命令
图形物件可视特性
修改命令
设定查询条件
输入图形物件之
不可视特性
图形物件控制命令资料库资讯设定命令
增加物件
选择物件
复制物件
删除物件
颜色形状尺寸颜色形状尺寸
查询反应时间
查询回传数目
其他查询条件
图形说明
图形形态
其他图形资讯
位置位置
图3-2,图形描述与查询控制语言架构图
3.3.1图形物件控制命令
以本文内容为基础的影像检索,对於使用者来说是比较自然的方式.许多的
影像资料库,对於范例图形的产生,大部份都是随机产生一组待选的范例图形,
然后由其中选出一张图形当作范例图形来进行影像检索.这样有一个问题,因为
大部份的使用者在作影像检索前,对於自己要检索什麼样的影像资料都已经有一
个初步的想法.如果能设计一个方式,让使用者表达他们所想要的图形,应该比
随机产生的图形,更能符合使用者的需要.基於这个想法,我们结合区域性查询
和概念式查询,来产生范例图形.图形物件控制命令包括下列部份 :
23
l图形物件操作命令 : 控制整个范例图形中图形物件的状态.
n增加图形物件.
n删除图形物件.
n复制图形物件.
n选择图形物件.
l图形物件可视特性设定命令 : 用来设定各个图形物件的可视特性.
n形状 (shape) : 设定基本图形,正方形,长方形,圆形,椭圆形,三角
形,梯形,及一些事先设计的的样板图形.
n颜色(color) : 指定图形物件的颜色.我们使用RGB颜色空间 (color
space) 来表示颜色,使用者可选择事先定义的颜色,或自行设定R,G,
B的值来决定颜所需要的颜色.
n位置(location) : 我们将图形的可视区域分为九个大区块,使用者先利
用大区域初步决定图形物件的位置,再利用可视特修改命令来决定正确
的位置.
n尺寸(size) : 我们将图形物件的大小,先粗分成大,中,小三种尺寸,
由使用者选择一个尺寸后,再利用可视特修改命令来决定适合的尺寸.
l图形物件可视特性修改命令 : 我们可以修改图形物件的特性,以得到符合
需求的范例图形.
n颜色 : 使用者可以更改颜色中R,G,B的任一个值,或是变亮,变暗
更改颜色的明暗度,这样可以得到使用者真正所需要的颜色.
n位置 : 我们提供往上移,往下移,往左移,往右移,往左旋转,往右
旋转,让使用者控制图形的空间关系,以便使用者可以组合出心中所想
要的图形.
n尺寸:我们提供变大,变小,变长,变宽让使用者改变图形的尺寸.
24
3.3.2资料库查询资讯设定命令
资料库查询资讯设定命令 : 用来设定资料库查询资讯.包括下列两种命令 :
l设定查询条件 : 针对不同的影像资料库,我们可以让使用者设定不同的查
询条件.这样才能得到最佳的查询效果.例如 : 可以设定查询的反应时间,
或查询回传数目等等.
l输入图形物件之不可视特性 : 我们前面提到有一些影像资料库会将关连式
资料库的技巧带进来,使用者需要输入一些文字资料,来作查询的条件.常
见的是每一张影像资料给定一个关键字,然后利用此关键字来作查询.
3.4 图形查询引擎
l范例图形及查询修改(sample image and query modify) :当使用者利用语音下
了控制命令,我们必须执行控制命令.对於图形控制命令,我们将显示范例
图形来反应使用者的修改,并将所有图形的状态都储存起来,作为范例图形
产生的依据.范例图形的产生方式有两种,一是利用基本图形组合,二是选
择样板图形,再加基本图形组合而成.对於资料库查询资讯设定,我们只要
将所有的设定储存起来,并将设定反应给使用者知道.
l范例图形和资料库查询资讯标准化格式产生器 (sample image and database
information standard format generator) : 由於我们的影像资料库不是只有一
组,但是我们的范例图形与使用者的查询条件,只有一组.为了让这一份资
讯能够适合所有的影像资料库,我们必须使用通用的表示法来表示.我们采
用XML来作为资料库查询资讯的表示方法,利用SVG来表示范例图形.
这样对於搜寻影像所需要的资讯我们就有很好的描述.
25
3.4.1 范例图形产生范例—利用基本图形
我们利用图形物件控制命令,可以造出范例图形,底下我们将图示其过程 :
步骤1 : 输入"背景颜色",选择黑色为背景颜色.
步骤2 : 输入"形状",选择圆形.输入"颜色",选择红色.输入"位置",
选择"中"的位置.输入"大小",选择"大"的尺寸.输入"增加图形",最
后利用位置与尺寸修改命令,调整合适的位置与尺寸.
26
步骤3 : 输入"复制形状",选择"1".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤4 : 输入"复制形状",选择"2".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤5 : 输入"复制形状",选择"3".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
27
步骤6 : 输入"复制形状",选择"4".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤7 : 输入"复制形状",选择"5".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤8 :输入"复制形状",选择"6".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
28
步骤9 : 输入"形状",选择"长方形".输入"颜色",选择"绿色".输入"位置",
选择"右下"的位置.输入"大小",选择"小"的尺寸.输入"增加图形",
最后利用位置与尺寸修改命令,调整合适的位置与尺寸.
步骤10 : 输入"复制形状",选择"8".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤11 : 输入"复制形状",选择"9".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
29
3.4.2范例图形产生范例—利用样板图形
利用基本图形组合范例图形是比较辛苦的工作,我们提供了样板图形来加快
范例图形的建置,以下是建置过程 :
步骤1 : 输入"样板图形",将出现样式图形选择视窗.
步骤2 : 在样板图形选择视窗中,选择红花的样板图形.
30
步骤3 : 输入"形状",选择"长方形".输入"颜色",选择"绿色".输入"位置",
选择"右下"的位置.输入"大小",选择"小"的尺寸.输入"增加图形",
最后利用位置与尺寸修改命令,调整合适的位置与尺寸.
步骤4 : 输入"复制形状",选择"8".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤5 : 输入"复制形状",选择"9".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
31
3.4.3 范例图形的标准化格式
我们的范例图形是由许多的形状物件所组成的.在SVG中每一种形状都用
一段文字叙述来表示.使用者利用图形物件控制命令所建立的图形,全部都可以
转换成SVG的表现方式.不论是形状,颜色,位置,尺寸皆可记录在SVG中 .
如果需要使用SVG中的图形,我们只要剖析整个SVG,然后将图形重绘一遍,
就可以得到原来的图形.
由於SVG是用文字来描述图形,整个图形的档案的大小会变得比较小.这
样对於无线网路环境是比较有利的.另外一点,我们前面提过SVG中的文字是
以文字来表示,图形中的文字也可以当作查询的资料.影像资料的查询的范围由
此,可以扩充的更大.对於查询的准确度应有较好的提升.
下面是一个SVG档案的架构 :
我们描述的图形要摆在 这个标签 (tag)中,每一个图形都有一个自己的
标签,因此,整张范例图形就是由许多的图形标签所构成.图形标签中属性值的
意义如下 :
32
lrect : 描述正方形,长方形
nx, y : 四方形的左上角顶点的位置.
nwidth, height : 四方形的长与宽.
nstyle : 四方形的颜色.
ntransform : 四方形旋转的角度.
lcircle :描述圆形
ncx, cy : 圆心的位置.
nr : 图的半径.
nstyle : 圆形的颜色.
lellipse :描述椭圆形
nrx, ry : 椭圆中心的位置.
nrx, ry : 椭图长轴与短轴的长度.
nstyle : 椭圆的颜色.
ntransform : 椭圆旋转的角度.
lpolygon: 描述三角形,梯形
nstyle : 三角形,梯形的颜色.
npoints : 三角形,梯形的各个顶点.
ntransform :三角形,梯形旋转的角度.
正方形与长方形的标签是一样的,因为rect中的长与宽相等就是正方形,反
之就是长方形.polygon 是描述多边形的标签,利用points中的座标点描述图形
的各个顶点.三个座标点就是三角形的三个顶点,四个座标点就是梯形的四个顶
点.我们的系统对於所有经由图形控制命令所产生的图形,最后都是以SVG的
格式来储存,只要了解SVG格式,并且能够剖析XML档案,就能取得我们的
图形.
33
我们上一节所产生的范例图形的svg档案如下:
由这个SVG档案,我们可以明显地看出我们的范例图形有四个四方形,六个圆
形.整个SVG档案架构是非常简单而易於了解的.
34
3.4.3 资料库查询资讯的标准化格式
因为我们的影像资料库有许多种,资料库查询资讯也要如同范例图形一般,
用一个通用的方式来描述它.我们使用XML来描述资料库查询资讯,将每一个
资料库的资讯存在不同的标签中,利用不同的标签名称,来区分不同的资料库查
询资讯.
资料库查询资讯,我们可以用XML档案中标签的属性(attribute) 来描述资
料库查询资讯,或是在XML档案中建立标签的子标签,利用这些子标签来描述
资料库查询资讯.
我们将资料库查询资讯建成一个XML档案,放在这个标签中,
利用 中的子标签来描述资料库查询资讯,每一个资讯的资料就放在
每一个子标签的属性栏位中,底下是我们资讯表示法的架构 :
其中各个标签的意义如下 :
35
lRandom : 设定影像资料库是否作随机查询.
nFlag : true 则作随机查询.
: false 则不作随机查询.
lKeyword : 设定影像资料库是否作关键字查询.
nflag : true 则作关键字查询.
: false 则不作关键字查询.
nkeyword : 使用者输入的关键字.
lText : 设定影像资料库是否作文字查询.
nflag : true 则作文字查询.
: false 则不作文字查询.
lColor : 设定影像资料库是否作颜色特性查询.
nflag : true 则作颜色特性查询.
: false 则不作颜色特性查询.
nweight : 颜色特性在查询中所占的权重.
lTexture : 设定影像资料库是否作材质特性查询.
nflag : true 则作材质特性查询.
: false 则不作材质特性查询.
nweight : 材质特性在查询中所占的权重.
lShape : 设定影像资料库是否作形状特性查询.
nflag : true 则作形状特性查询.
: false 则不作形状特性查询.
nweight : 形状特性在查询中所占的权重.
lFileNoLimit : 设定查询回传的档案数目.
nno : 查询回传的档案数目.
lSampleFileName : 设定查询时范例图形的档案名称.
nname: 范例图形的档案名称.
36
一个要作随机查询,查询回传的数目是5,的资料库查询资讯XML档案如
下:
37
3.5查询产生器
有了描述范例图形和资料库查询资讯的通用档案,针对不同的影像资料库,
我们必须产生适合的查询,这样才能得到正确的查询结果.查询产生器利用XSLT
档案,能根据不同资料库的查询条件,来产生合适的XML查询档案,只要剖析
这个XML档案,我们就可以得到查询.这样的设计,使得增删影像资料库至系
统中,只要增删查询产生器就可以完成.
3.5.1 资料库查询资讯转换方式
我们将资料库查询资讯用XML来表示,这样资料库查询资讯就成为一个公
开的文件,只要提供不同的XSLT档案,就可以达成不同的转换.因此,对於同
一份的资料库查询资讯,我们利用不同的XSLT档案,就可以产生不同的资料库
查询.
XSLT 可以将XML转换成任何形式,我们要利用同一份资料库查询资讯来
向不同的影像资料库作查询,我们需要准备不同的XSLT档案,来将资料库查询
资讯转换成合适的查询.资料库查询资讯是用XML所描述的,如果有新的影像
资料库要加入系统,只要提供一个XSLT档案,就能正确无误地将资料库查询资
讯转换成影像资料查询.
现在影像搜寻的研究大都只是实验阶段,还很少有可以实际应用的系统出
现.市面上有一些商业化的影搜寻软体已经出现,但是价格非常的昂贵,所以我
们目前只使用QBIC这一套影像资料库.QBIC提供了完整的API和良好的说明
文件,而且支援大部份的影搜寻演算法,我们认为这是一个很完整的影像资料库
系统,将来如果有新的影像资料库系统出现,我们也可以制作不同的XSLT档
案,来得到合适的查询.以下是QBIC资料库的XSLT档案:
38
-r
-T
-f QbTextFeatureClass
-f QbColorHistogramFeatureClass
0]">
:w=.
39
-f QbTextureFeatureClass
0]">
:w=.
-f QbDrawFeatureClass
0]">
:w=.
40
-i
-n
41
资料库查询资讯XML档案经过XSLT的转换,我们可以得到一个QBIC 查
询的XML档案,我们只要将这XML档案剖析出来,就可以得到QBIC查询.
如果我们将上一节的随机查询的资料库档案配合这一节的XSLT档案则我们将
会得到一个QBIC 查询的XML档案 :
-r
-n 5
我们只要将这XML档案剖析出来,配合QBIC的命令格式,就可以得到QBIC
查询
3.6影像资料库
现在支援影像查询的资料库愈来愈多,只要有提供API的影像资料库,皆可
纳入我们的系统中.对於不同的影像资料库,我们只要提供一个查询产生器即
可.对於新的影像资料库,我们也不用修改系统,就可以支援.
3.7查询结果整理
由於我们支援的影像资料库可以不只有一个,因此我们必须对查询回来的资
料作一些整理,才能将结果交由查询结果显示介面显示.
3.8查询结果显示介面
影像资料库传回的资料,不外乎文字与影像资料,要适当地显示传回的资
料,使用者才能选出需要的资讯.
42
3.9 系统特色
我们提出一个利用语音撷取影像资料库的模组化架构.整个架构包括 : 语
音辨识介面,图形查询引擎,影像资料库,查询结果整理和显示介面.利用这个
模组化架构,我们是希望可以方便的使用各种不同的语音辨识模组,或是影像搜
寻模组,而且是使用市面上可以找到的商业模组,或免费模组来使用.
我们定义了一套图形描述与查询控制语言,将语音辨识系统独立出来.结合
语音辨识可以将使用者的口语转换成系统可以了解的命令.利用图形描述与查询
控制语言,可以利用口语描述抽象化图形,当作影像查询的范例图形.
我们将系统中的资料库查询资讯用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在与其他的系统结合时,资讯交换
变得很容易.这样系统可以与不同的影像资料库结合
43
第四章系统实作
我们实作了一个利用语音介面来撷取影像资料库的系统.系统中大部份的模
组,是使用市面上可以找到的商业模组,或免费模组来使用.我们是希望能够提
出一个非常有弹性的架构,可以方便的使用各种不同的语音辨识模组,或是影像
搜寻模组,来完成这个系统.以下是系统实作部份的介绍:
4.1 系统发展环境
我们的系统发展环境是在个人电脑上,使用JAVA语言来实作.电脑的cpu
是 Pentium II 300,有128Mbytes 的记忆体.软体发展是利用Jbuilder 3.0 在JDK
1.2上发展程式.为了剖析XML档案,我们使用Sun Microsystems, Inc.的JAXP
(Java API for XML Parsing) 1.0.1 package [43].我们同时还利用 APACHE 的
Xalan 1.0.1 来作XSLT的转换[39].语音辨识介面是利用声硕科技的「说亦通」
中文听写系统[47].影像资料搜寻引擎是采用IBM 的QBIC系统[41].
我们目前有三种影像资料库,花卉图形资料库有88张图片,史奴比图形资
料库有98张图片,猫图形资料库有40张的图片,其中花卉图形资料库有文字资
料,可以作关键字查询.
我们的系统已经确实可以将所有的模组全部组合起来,让使用者透过语音介
面来撷取影像资料库,并且将我们的理论实作出来.
4.2 系统执行流程
使用者一进入系统时,必须先选择范例图形.使用者可自行利用基本图形,
如正方形,长方形,圆形等等,来组合出范例图形.或选择一些已经存在的样板
图形,来加快范例图形的建置.所有建置的过程皆可用语音命令来控制,只要用
口语输入图形物件控制命令就可以完成建置.
44
范例图形建立好之后,使用者要设定资料库查询条件,使用者可以设定查询
的方式,如 : 随机查询,关键字查询,文字查询,图形特性查询,和查询的条
件,如 : 范例图形的档案名称,查询结果的回传数目,或是各个图形可见特性
在查询时的权重(weight),和影像资料库的类别.这些设定非常重要,因为查询
条件若设定不佳,查询的效果将非常不好.
使用者设定好资料查询条件,便可以查询影像资料库,系统要查询影像资料
库之前,有一些事情必须完成.系统必须先将SVG所描述的图形档案转换成影
像资料库可以接受的影像档案格式.再将资料库查询条件利用XSLT档案来产生
合适的查询.
系统最后将查询的结果显示出来,让使用者决定是否已找到心中所想要的图
形.若使用者找到所想要的图形,则完成此次的查询,若没找到,使用者可选择
任何一张图形,更改资料库查询条件,再重新查询,直到找到使用者心中所想要
的图形为止.
4.3 系统功能说明
我们实作的系统,是依照我们的理论架构来完成的.底下我们将介绍整个系
统功能 :
首先是系统的主画面 (如图 4-1 )
45
图4-1,系统主画面
l范例图形产生介面 : 供使用者用建置范例图形.
n语音输入栏位 : 供使用者输入语音命令.
n形状 : 显示使用者目前所选择图形物件的形状.
n颜色 : 显示使用者目前所选择图形物件的颜色.
n位置 : 显示使用者目前所选择图形物件的位置.
n大小 : 显示使用者目前所选择图形物件的尺寸.
n关键字 : 供使用者输入作关键字查询之关键字.
语音输入栏位可输入所有的图形描述与查询控制语言,若要设定资料库查询
资讯,使用者必须输入"资料库设定",则资料库查询资讯的视窗将出现(如图4-2)
46
图4-2,资料库查询资讯设定画面
同样的,设定资料库查询资讯的语音命令也是由语音输入的栏位进入,只要
使用者输入各个栏位中的文字,即可设定资料库查询资讯.
若使用者要设定图形物件的特性,只要输入范例图形产生介面中各个栏位中
的文字即可.输入"形状"即可选择形状(如图4-3),输入"颜色"即可选择颜色(如
图4-4),输入"位置"即可选择位置(如图4-5),输入"大小"即可选择尺寸(如图
4-6).输入"范例图形"即可选择范例图形(如图4-7).
47
图4-3,图形物件形状设定画面
图4-4,图形物件颜色设定画面
48
图4-5,图形物件位置设定画面
图4-6,图形物件尺寸设定画面
图 4-7,范例图形设定画面
49
l范例图形的区域是用来绘制使用者所描述的范例图形(如图4-8).
图4-7,范例图形绘制画面
50
搜寻范例的区域是显示使用者所选之范例图形的缩图(thumbnail).
l搜寻结果的区域是用来显示查询的结果,将查询结果用缩图的方式显示出
来.(如图4-8)使用者并可点选任何一张搜寻结果区域中的图形当作下一次
查询的范例图形.
图4-8,搜寻结果画面
51
第五章系统效能分析
我们在第三章提过一般的影像搜寻演算法,都是利用随机产生一些范例图形
让使用者选择,然后利用所选择的范例图形来作影像资料搜寻.我们的方法是希
望使用者将心目中所想要的影像资料,先抽象化的描述出来,利用描述出来的抽
象化图形当作范例图形来作影像资料搜寻.我们认为会有比较高的准确度.底下
就是我们所作的实验 :
5.1 抽象化图形的搜寻准确度
我们想了解针对不同的影像资料库,利用抽象化图形作影像资料搜寻的准确
度.实验方法如下 :
我们针对三种资料库各取出一张图形作为目标图形,然后对每一张目标图形
做抽象化描述,利用这三张抽象化图形来作影像资料搜寻.
我们对於每一张的抽象化图形都作颜色特性,材质特性,形状特性,颜色和
材质特性(各占50 %),颜色特性和材质特性(各占50 %),材质和形状特性(各占
30 %),整合特性(颜色,材质,形状各占33 %)的查询.然后观察找到目标图形
所需之回传张数,如果抽象化图形与目标图形很相似,找到目标图形所需之回传
张数就很少,反之则很多.
我们实验数据图表的横轴是查询特性,纵轴是找到目标图形所需之回传张
数.因此,柱状图愈短的,代表抽象化图形与目标图形愈相似.
底下为三个资料库的实验数据 :
52
l花卉图形资料库 :
花卉图形资料库的抽象化图形与目标图形(如图5-1),测试结果(如图5-2)如
下所示.由结果我们可以发现利用形状特性和整合特性的查询,我们都可以正确
无误地找到目标图形.
(a) 抽象化图形(b) 目标图形
图5-1,花卉图形资料库的抽象化图形与目标图形
02468101214
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-2,花卉图形资料库抽象化图形之特性查询结果
53
l史奴比图形资料库 :
史奴比图形资料库的抽象化图形与目标图形(如图5-3),测试结果(如图5-4)
如下所示.由结果我们可以发现利用形状特性和整合特性的查询,我们都可以正
确无误地找到目标图形.
(a)抽象化图形(b) 目标图形
图5-3,史奴比图形资料库的抽象化图形与目标图形
02468101214
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-4,史奴比图形资料库的抽象化图形之特性查询结果
54
l猫图形资料库 :
猫图形资料库的抽象化图形与目标图形(如图5-5),和测试结果(如图5-6)如
下所示.由结果中我们可以发现利用颜色特性和形状特性的查询,我们都可以正
确无误地找到目标图形.
(a)抽象化图形(b) 目标图形
图5-5,猫图形资料库的抽象化图形与目标图形
0246810121416
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-6,猫图形资料库的抽象化图形之特性查询结果
55
5.2 搜寻时间分析
由上一节的实验结果我们可以看出利用抽象化图形查询的效果不错,有好几
种特性查询都可以找出目标档案,因此准确度不错.系统中另一个大家会注意的
地方就是速度.我们在第四章有提过,我们所有的资料都是以通用的形式来表
示.这表示我们需要一些额外的时间去作资料转换的工作.我们希望资料转换的
负担愈小愈好.
在我们的系统架构之下,我们可以得出
影像资料搜寻时间 = 资料转换时间 + 资料库搜寻时间
资料库搜寻时间可以视为常数,假设我们的影像搜寻引擎不变,因此我们只
要得出资料转换时间,就可知道系统的效率如何.实验方式为对三个影像资料库
都作颜色特性查询,我们取50次查询的时间来作平均.结果如图5-7.
由结果可以看出资料转换的时间大约占10 %影像资料搜寻时间.我们认为
这样的负担应该是可以接受的.
05001000150020002500
花卉史奴比猫
图形资料库
影像资料搜寻时间 (ms)
资料转换资料库搜寻
图5-7,系统搜寻时间分析
56
5.3随机查询之查询次数分析
从5 1 和 5 2 我们可以发现抽象化图形查询有不错的效果,而且额外的
负担也不是很大.那随机查询的效能如何,是否真的会很差,亦或效能不会差太
多.若随机查询的效能不错,我们是否需花这麼大的工夫,提供一个让使用者描
述抽象化图形的方式.随机查询的查询次数对我们来说是非常重要的比较数据.
使用者在作随机查询的时候,有两种方式可以选择 :
1.每一次作完随机查询,都检查传回的结果中是否有目标图形,如果没有就继
续作随机查询,有的话就结束查询.
2.每一次作完随机查询,都可以选择结果中的某一个图形作特性查询,也可以
继续作随机查询.如果使用者选择了正确的特性查询就会加快搜寻的速度,
但是如果选择了错误的特性查询,搜寻方向将会偏移,反而造成搜寻时间的
增加.因此,选择正确的特性查询是非常重要的.
第一种方式对於我们作实验是很直觉的,就是对於每一次随机查询的结果都
检查是否含有目标图形,如果没有就继续作随机查询,有的话就结束查询.
第二种方式对於我们作实验是有一些困难的.因为使用者判断某一个结果是
否可以作特性查询是一件非常主观的事,并没有什麼标准可以衡量.这样的处理
方式,使得我们无法用程式来模拟.为了克服这个问题,我们将第二种方式作了
少许的修改.
我们在每次作随机查询之前,我们先将目标图形作一次特性查询,经过查询
之后,我们可以得到一个与目标档案有相似特性的相似图形群组,在随机查询后
我们检查结果中是否有图形落在相似图形群组中.如果没有任何图形落在相似图
形群组中,就继续作随机查询;如果有图形落在相似图形群组中,就表示结果中
有某一些图形经过特性查询可以得到目标图形,这样就结束查询.我们是模拟使
用者每一次都能判断出结果中是否有图形和目标图形有相似的特性,并且都能选
择正确的特性查询.也就是模拟最佳情况.
57
5.3.1 针对目标图形的随机搜寻
针对目标图形的随机搜寻在实验的设计上,就如前面所提是非常直接的.我
们对不同结果的数目作了一些实验,希望了解查询回传张数和找到目标图形之查
询次数的关系.测试结果(如图5-8)中横轴是查询回传张数,纵轴是找到目标图
形之查询次数.
由图表中我们可以看出查询回传张数愈多,找到目标图形之查询次数就愈
少,因为查询回传张数愈多,代表找到目标档案的机会愈高.
010203040506070
1234567891011121314151617181920
查询回传张数
找到目标图形之查询次数
花卉图形资料库史奴比图形资料库猫图形资料库
图5-8,针对目标图形的随机搜寻之查询次数分析
58
5.3.2针对相似图形群组的随机搜寻
由5 3的说明中,我们知道针对相似图形群组的随机搜寻的变数有两个,
一是相似图形群组的大小,二是查询回传张数的大小.
我们根据这样的情形设计了两种实验 : 一是相似图形群组为3,查询回传张
数由 1到 20,二是相似图形群组为10,查询回传张数由 1到 20.我们对於目
标图形作颜色特性,材质特性,形状特性,颜色和材质特性(各占50 %),颜色特
性和材质特性(各占50 %),材质和形状特性(各占30 %),整合特性(颜色,材质,
形状各占33 %)的特性分析,来取得相似图形群组.测试结果如图5-9 , 图 5-10 ,
图5-11,图 5-12,图 5-13 ,图 5-14.
由结果我们可以发现相似图形群组的数目愈多,找到目标图形之查询次数就
愈少,因为相似图形群组的图形数目愈多,回传结果落到相似图形群组的机会就
提高.
查询回传张数愈多,找到目标图形之查询次数就愈少,因为查询回传张数愈
多,代表传回的结果落到相似图形群组的机会就愈高,这是跟针对目标图形的随
机搜寻的结果一样的.
59
花卉图形资料库
相似图形群组数目3
0246810121416
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-9,针对相似图形群组的随机搜寻之查询次数分析
(花卉图形资料库,相似图形群组数目3)
花卉图形资料库
相似图形群组数目10
00.511.522.533.544.5
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-10,针对相似图形群组的随机搜寻之查询次数分析
(花卉图形资料库,相似图形群组数目10)
60
史奴比图形资料库
相似图形群组数目3
0510152025303540
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-11,针对相似图形群组的随机搜寻之查询次数分析
(史奴比图形资料库,相似图形群组数目3)
史奴比图形资料库
相似图形群组数目10
012345678910
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-12,针对相似图形群组的随机搜寻之查询次数分析
(史奴比图形资料库,相似图形群组数目10)
61
.猫图形资料库
相似图形群组数目3
0510152025303540
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-13,针对相似图形群组的随机搜寻之查询次数分析
(猫图形资料库,相似图形群组数目3)
猫图形资料库
相似图形群组数目10
024681012
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-14,针对相似图形群组的随机搜寻之查询次数分析
(猫图形资料库,相似图形群组数目10)
62
5.3.3抽象化图形与随机相似图形查询之比较
我们前面已经有了抽象化图形与随机相似图形的查询效能分析,现在我们将
两个结果合并起来作一个比较.我们利用颜色特性,材质特性,形状特性,整合
特性(颜色,材质,形状各占33 %)的特性查询来作比较.随机搜寻的相似图形群
组大小是三个.结果如图5-15,5-16,5-17.
利用抽象化图形来查询比随机相似图形查询有较少的回传张数.抽象化图形
是由使用者所描述的,有时无法将目标图形的特性完全描述出来,因此有些特性
查询的结果会比随机查询来的差,这个情况我们可以从图5-15的颜色特性查询
中看出来.我们使用抽象化图形来作查询时的范例图形,一般而言,以形状特性
来查询可以得到很好的效果.在三个结果图形中,我们可以看到这个现象.
花卉图形资料库
02468101214
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-15,抽象化图形与随机相似图形的查询效能比较
(花卉图形资料库,相似图形群组数目3)
63
史奴比图形资料库
024681012141618
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-16,抽象化图形与随机相似图形的查询效能比较
(史奴比图形资料库,相似图形群组数目3)
猫图形资料库
024681012141618
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-17,抽象化图形与随机相似图形的查询效能比较
(猫图形资料库,相似图形群组数目3)
64
5.4 使用者查询方法之比较
我们前面都是利用程式模拟使用者行为,量测数据.这一些资料比较客观,
较为人所接受.但是,我们的系统最后面对的还是使用者,让使用者实际利用我
们的系统来作影像资料搜寻,测试结果如图5-18.
由结果我们可以知道,随机查询对於使用者来说仍是一件很困难的事.因为
使用者必须选择合适的特性查询方法,才能找到目标图形.一般的使用者很难去
了解什麼图形该用什麼持性查询.抽象化图形对於使用者来说是比较自然的方
法,只要描述的不要太差,查询次数应该不会太多.
02468101214161820
花卉抽象化图形
史奴比抽象化图形
猫抽象化图形花卉随机查询
史奴比随机查询
猫随机查询
找到目标图形之查询次数
专家一般使用者
图5-18,使用者查询方法之比较
65
5.5 查询时间与资料库数量之关系
我们建立了一个一千张图形的资料库,这里面有不同种种类的图形.我们在
5 2 节中有测试三个资料库的查询时间,因为这三个资料库的图形数目都很少,
因此,我们重新建立了一个有比较多图形的资料库,希望能测试出查询时间与资
料库数量的关系.
这一个实验,我们将资料库数目以100的数目增加,都作颜色特性,材质特
性,形状特性,颜色和材质特性(各占50 %),颜色特性和材质特性(各占50 %),
材质和形状特性(各占30 %),整合特性(颜色,材质,形状各占33 %).然后量测
查资料库搜寻时间.测试结果如图5-19,5-20,5-21,5-22 :
0200400600800100012001400160018002000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-19,查询时间与资料库大小之关系-利用颜色特性搜寻
66
020040060080010001200140016001800
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-20,查询时间与资料库大小之关系-利用材质特性搜寻
0200400600800100012001400160018002000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-21,查询时间与资料库大小之关系-利用形状特性搜寻
67
050010001500200025003000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-22,查询时间与资料库大小之关系-利用综合特性搜寻
由结果可以观察出,颜色和材质特性查询的查询时间在一千张的图形数目下
几乎没有改变.而形状和综合特性查询的查询时间就随著资料库数目的增加而线
性增加.
不管使用何查询方式,我们的资料转换时间始终维持一个固定的时间.也都
占整个影像资料库查询时间的10%左右.
68
第六章结论与未来展望
无线网路的快速发展,提供了更有效率的沟通方式.如何在无线环境中,提
供快速方便的资讯服务,是一个值得研究的课题.我们提出一个架构让使用者可
以克服无线连线设备的操作不便性,轻易的由语音透过无线网路来撷取影像资料
库.我们将架构模组化,让这个架构具有弹性和扩充性,可以适用不同的语音辨
识介面,并支援多种的影像资料库.
6.1 结论
我们在这篇论文中提出一个让使用者利用语音撷取影像资料库的模组化架
构.整个架构包括 : 语音辨识介面,图形查询引擎,影像资料库,查询整理与
显示介面.为了增加架构的实用性,我们的语音辨识介面,影像资料库都是采用
现有的系统.我们利用图形描述与查询控制语言,和资料的标准化格式,使得我
们的系统可以和各种不同的语音辨识介面和影像资料库搭配使用.
我们利用抽象化图形来当作影像查询的范例图形,这样可以得到非常好的效
果.为了让使用者可以方便地描述范例图形,我们提供两种方法给使用者 : 一
是基本形状,二是样版图形.利用使用者描述出来的范例图形,可以得到非常好
的查询效果.
我们将系统中的影像资料库资料用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在跟其他系统结合时,资讯的交换
变得很容易.对於我们想要使系统能够很轻易地与其他的系统结合,除了结构化
的架构,资讯的标准化也是一件很重要因素.
69
6.2 问题与讨论
l语音辨识介面易受噪音(noise)干扰.
在我们系统测试的过程中,发觉语音辨识介面非常容易受到噪音的干扰.噪
音在无线环境中是无可避免的,因此提高语音辨识介面的抗杂讯能力是一件
克不容缓的事.
l语音辨识介面与其它程式介面的结合有不方便之处.
我们所采用的说亦通语音辨识介面将转换出来的语音字串,先存进剪贴簿
中,然后当使用者确定这一串语音字串是正确,语音辨识介面再将剪贴簿中
的字串拷贝出来.这样对一些文书处理软体是没有问题,但对於某些输入视
窗是有问题的.我们认为语音介面如果能够模拟成一般的中文输入法,这样
的相容性麼该会比较好.
l抽象化图形无法轻易地完全描述目标图形.
由於图形的复杂程度不同,特性也不同.图形如果是比较单纯的,比较容易
描述,例如,漫画人物,几何图案所构成的图形.复杂的图形有时用笔画是
比较容易的.因此我们认为要让使用者有较佳的描述方式,可以将手绘图形
的方式也加进来.
70
6.3 未来展望
我们的系统已经可以令使用者经由语音来撷取影像资料库,这只是一个起
步,我们觉得系统在未来可以加入下列功能,使系统更便利 :
l结合自然语言处理 :
我们现在只有简单的图形描述与查询控制语言可让使用者使用.未来结合自
然语言处理,我们就可以让使用者的语音输入可以更自然,这样所能描述的
资讯会较丰富,可以作较复杂的搜寻.
l建立观念性的样板元件 :
我们提供的样板元件是我们事先制作好的一些较复杂的抽象图形.观念性的
样板元件是指一些有意义的影像资料,如海洋,青草地,高山等等.有了这
些元件,我们建立范例例图形时就可以更方便,更符合使用者心中所想.
l结合语音合成的技术.
我们实作的系统,有些时候仍需要使用键盘,未来如果加入语音合成技术,
系统的互动性将变的更好.
71
参考文献
[1]Y.A. Aslandogan, and C. Their, et al. Design, Implementation, and Evaluation of SCORE
(A System for Content Based Retrieval of Pictures). Proc. IEEE ICDE, pp. 280-287, Mar.
1995.
[2]Y.A. Aslandogan, and C. Their, et al. Using Semantic Contents and WordNet in Image
Retrieval. Proc. ACM SIGIR Conf., 1997.
[3]Y.A. Aslandogan, and C.T. Yu.Techniques and systems for image and video retrieval. IEEE
Transactions onKnowledge and Data Engineering,Vol. 11, no. 1, pp. 56-63,
January/February, 1999.
[4]Daniel Barbara, Mobile Computing and Databases - A survey. IEEE Transaction on
Knowledge and Data Engineering, Vol. 11, no. 1, pp. 108-117, January/February, 1999.
[5]A.P. Berman, L.G. Shapiro. Efficient content-based retrieval: experimental results.
Proceedings. IEEE Workshop on Content-Based Access of Image and Video Libraries,
(CBAIVL '99), pp. 55- 61, 1999.
[6]Bert Bos. XML in 10 points. Available at: http://www.w3.org/XML/1999/ML-in-10-points
[7]Jon Bosak. XML:The Universal Publishing Format. Sun Microsystem Inc, 1998. Available
at: http://www.gca.org/conf/paris98/bosak/sld00000.htm
[8]John Bowler, et al. Scalable Vector Images (SVG) 1.0 Specification. W3C Working Draft 03
March 2000. Available at: http://www.w3.org/TR/SVG/
[9]Dan Connolly. Extensible Markup Language (XML). W3C (MIT, INRIA, Keio), 1999.
Available at: http://www.w3.org/XML/
[10]J.M. Corridoni, and A.D. Bimbo, et al. A Visual Language for Color-Based Painting
Retrieval. Proc. Int'l Symp. Visual Languages, pp. 68 - 75, 1996.
[11]R.A. Dayem. Mobile Data and Wireless LAN Technologies. Prentice Hall, Upper Saddle River,
72
NJ 07458.
[12]Angel Diaz. Mathematical Markup Language (MathML). W3C (MIT, INRIA, Keio), 1999.
Available at: http://www.w3.org/Math/
[13]Dan Duchamp. Issues in Wireless Mobile computing Computer Science Department,
Columbia University, 1992.
[14]M.J. Egenhofer. What's Special About spatial Database Requirements for Vehicle
Navigation in Geoimage Space. Proc. ACM SIGMOND, pp. 398-402, 1993.
[15]C. Faloutsus, and R. Barber, et al. Efficient and Effective Querying By Image Content.J.
Intelligent Information Systems, vol. 3, no. 1, pp. 231-262, 1994.
[16]C. Faloutsos, M. Flickner, et al. efficient and Effective Querying by Image Content.
Research Report, No. 9453, IBM Almaden Research Center, 1993.
[17]M. Flickner, and H.S. Sawhney, et al. Query by image and video content: the QBIC system.
IEEE Computers, Vol. 28, No. 9, pp. 23-32, 1995.
[18]Bill Gates, Nathan Myhrvold, and Peter Rinearson. 拥抱未来(The Road Ahead).远流出
版事业股份有限公司, 1996.
[19]Y. Gong, and H. Zhang, et al. An Image Database System with Content Capturing and Fast
Image Indexing Abilities. Proc. Int'l Conf. Multimedia Computing and Systems, pp. 121-130,
May, 1994.
[20]V. Haarslev, and M. Wessel. Querying GIS With Animated Spatial Sketches. Proc. Int'l
Symp. Visual Languages, pp. 201-208, 1997.
[21]W. Hsu, T.S. Chua, and H.K. Pung, An Integrated Color-Spatial Approach to
Content-Based image Retrieval. Proc. ACM Multimedia conf., pp. 305-313, 1995
[22]Tad Lane. Scalable Vector Images Web Images with Original Quality Art work.
Information Architecture Standards Editor, CIC-1 Communication Arts and Services.
Available at: http://www.lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html
[23]W.-S. Li, K.S. Candan, et al. SEMCOG : An Object-Based Image Retrieval System and its
73
Visual Query Interface. Proc. ACM SIGMOND, pp. 521-524, June. 1997
[24]Chris Lilley. Scalable Vector Images (SVG). W3C (MIT, INRIA, Keio), 2000. Available at:
http://www.w3.org/Images/SVG/Overview.htm8
[25]Chris Lilley, and Vincent Quint. Extensible Stylesheet Language (XSL). W3C (MIT, INRIA,
Keio),2000. Available at: http://www.w3.org/Style/XSL/
[26]B. Meyer. Pictorial Deduction in Spatial Information Systems. Proc. Int'l Symp. Visual
Languages, pp. 23 - 30, 1994
[27]Thierry Michel.Synchronized Multimedia Integration Language (SMIL). W3C (MIT,
INRIA, Keio), 1999. Available at: http://www.w3.org/AudioVideo/#Specificat
[28]W. Niblack, and R. Barber, et al. The QBIC project: querying images by content using color,
texture, and shape. Research Report, No. 9203, IBM Almaden Research Center, 1993.
[29]William J. Pardi. XML in Action. Microsoft Press, 1999. Available at:
http://msdn.microsoft.com/xml/default.asp
[30]M. Satyanarayanan. Fundamental Challenges in Mobile Computing. School of Computer
Science, Carnegie Mellon University, 1996
[31]A.F. Smeaton and I. Qiggley. Experiments on Using semantic Distances between Words in
Image Caption retrieval. Proc. ACM SIGIR Conf., 1996
[32]J.R. Smith and S.F. Cahng. VisualSEEk : A Fully Automated Content-Based Image Query
System. Proc. ACM Multimedia conf., Boston, pp. 87-98, 1996
[33]Ralph Swick, and Eric Miller. Resource Description Framework (RDF). W3C (MIT, INRIA,
Keio), 2000. Available at: http://www.w3.org/RDF/
[34]F. Tomita, and T. Saburo. Computer Analysis of Visual Textures. Kluwer, 1990
[35]Daniel Veillard, and Dan Connolly. XML Linking Language (XLink). W3C (MIT, INRIA,
Keio),2000. Available at: http://www.w3.org/XML/Linking.html
[36]E.M. Voorhees. Using WordNet to Disambiguate Word Senses for Text Retrieval. Proc.
ACM SIGIR Conf., pp. 12-25, 1995
74
[37]A. Yoshitaka, and T. Ichikawa. A survey on content-based retrieval for multimedia
databases.IEEE Transactions on Knowledge and Data Engineering,Vol. 11, no. 1, pp. 81-93
January/February, 1999.
[38]C.T. Yu and W. Meng. Principles of Databases Query Processing for Advanced Applications.
Data Management Systems, Morgan Kaufman, 1998
[39]Apache, Xalan Overview. Available at: http://xml.apache.org/xalan/overview.html
[40]IBM,「Via Voice快乐颂」. Available at: http://www.acertwp.com.tw/viavoice/function.htm
[41]IBM, IBM's Query By Image Content. Available at: http://wwwqbic.almaden.ibm.com/
[42]International Standards Organization, ISO 8879, Information Processing - Text and Office
Systems - Standard Generalized Markup Language (SGML)
[43]Sun Microsystems, Inc. XML and Java technologies. Available at: http://java.sun.com/xml/
[44]W3C, Extensible Markup Language (XML) 1.0, W3C Recommendation 10-February- 1998,
Available at: http://www.w3.org/TR/REC-xml
[45]张照煌. 语音辨识技术应用之发展趋势.Computing Center Newsletter计算中心通讯,第14
卷07期,87年03月30日.
[46]廖弘源.以影像内涵为搜寻基础的台湾鱼类查询系统.中央研究院资讯科学研究所,
Available at: http://smart.iis.sinica.edu.tw/~fish/cindex.html
[47]声硕科技. 说亦通2000特色. Available at: http://www.speech.com.tw/product1.htm.
随著无线网路的快速发展,及应用的日渐增加,在无线网路环境
中使用影像资料,将是一大需求.我们提出一个透过语音来撷取影像
资料库的模组化架构,一方面利用语音介面来克服无线网路连线设备
操作的不便性,另一方面充分运用并弹性结合现存语音及影像资料库
系统.我们定义一套图形描述与查询控制语言,将语音辨识系统独立
出来.我们利用使用者描述的抽象化图形来当作查询的范例图形,以
增加查询的准确度,减少网路频宽的浪费.系统中的资讯皆以标准化
格式表示,我们用XML表示系统中的资料库查询资讯,以SVG表
示系统中的影像资料.一则方便各类资料的处理与转换,同时可与不
同的影像资料库结合.经过系统实作与测试,可以得到相当好的效
果,而资料库查询资料的转换时间占了资料库查询的10 %左右.
关键字 : 语音辨识,影像资料库,图形描述与查询控制语言
Abstraction
As the wireless network is developed rapidly, the applications in
wireless network is increase. In the feature, image will be a popular
data format in the wireless network. Because of the inconvenient
operation in wireless environment, we use the voice to be the input
interface. We use the abstract image describing by the user to be the
sample image of the query, so that we have a more precision query
result and don't waste the network bandwidth. We separate the voice
recognition interface and our system by defining the image
descriptionand query control language. The information of our
system is a standard format, we use XML to describe query
information, use SVG to describe image information, and we can
operate with other image database. We implement and evaluate the
system, and we have the good performance. The query information
transform time is about 10% of the query process time.
Keyword : voice recognition,image database,image descriptionand
query control language
I
目录
第一章简介.................................................................................................................1
1.1 研究动机.......................................................................................................1
1.2 研究目的.......................................................................................................2
1.3 研究方法.......................................................................................................2
1.4 研究成果.......................................................................................................3
1.5 论文架构.......................................................................................................4
第二章相关研究.........................................................................................................5
2.1 行动计算环境...............................................................................................5
2.2 语音介面.......................................................................................................8
2.2.1 语音辨识技术分类.......................................................................8
2.2.2 语音辨识产品介绍.......................................................................9
2.3 可延伸标签语言XML...............................................................................10
2.3.1 XML的目标................................................................................12
2.3.2 XML的应用................................................................................12
2.4 可缩放向量化图形SVG............................................................................13
2.5 以内容为基础之影像检索.........................................................................15
2.5.1 影像资料的可见特性.................................................................15
2.5.2 影像资料的不可见特性.............................................................16
2.5.3 影像资料的查询.........................................................................17
2.5.4 以内容为基础的影像查询系统.................................................18
第三章系统理论与架构...........................................................................................19
3.1 系统架构图.................................................................................................20
3.2 语音辨识介面.............................................................................................21
3.3 图形描述与查询控制语言.........................................................................21
3.3.1图形物件控制命令......................................................................22
3.3.2 资料库查询资讯设定命令.........................................................24
3.4 图形查询引擎.............................................................................................24
II
3.4.1 范例图形产生范例—利用基本图形.........................................25
3.4.2 范例图形产生范例—利用样板图形.........................................29
3.4.3 范例图形的标准化格式.............................................................31
3.4.3 资料库查询资讯的标准化格式.................................................34
3.5 查询产生器.................................................................................................37
3.5.1 资料库查询资讯转换方式.........................................................37
3.6影像资料库..................................................................................................41
3.7查询结果整理..............................................................................................41
3.8查询结果显示介面......................................................................................41
3.9 系统特色.....................................................................................................42
第四章系统实作.......................................................................................................43
4.1 系统发展环境.............................................................................................43
4.2 系统执行流程.............................................................................................43
4.3 系统功能说明.............................................................................................44
第五章系统效能分析...............................................................................................51
5.1 抽象化图形的搜寻准确度.......................................................................51
5.2 搜寻时间分析...........................................................................................55
5.3 随机查询之查询次数分析.......................................................................56
5.3.1 针对目标图形的随机搜寻.........................................................57
5.3.2针对相似图形群组的随机搜寻..................................................58
5.3.3 抽象化图形与随机相似图形查询之比较.................................62
5.4 使用者查询方法之比较.............................................................................64
5.5 查询时间与资料库数量之关系.................................................................65
第六章结论与未来展望...........................................................................................68
6.1 结论.............................................................................................................68
6.2 问题与讨论.................................................................................................69
6.3 未来展望.....................................................................................................70
参考文献.....................................................................................................................71
III
图表目录
图2-1,行动计算架构[4]............................................................................6
图2-2,二元映像格式图形放大后失真...................................................13
图2-3,向量式图形放大后不失真...........................................................14
图2-4,Tad Lane的SVG测试图形[22]..................................................14
图3-1,系统架构图...................................................................................20
图3-2,图形描述与查询控制语言架构图...............................................22
图4-1,系统主画面...................................................................................45
图4-2,资料库查询资讯设定画面...........................................................46
图4-3,图形物件形状设定画面...............................................................47
图4-4,图形物件颜色设定画面...............................................................47
图4-5,图形物件位置设定画面...............................................................48
图4-6,图形物件尺寸设定画面...............................................................48
图 4-7,范例图形设定画面......................................................................48
图4-7,范例图形绘制画面.......................................................................49
图4-8,搜寻结果画面...............................................................................50
图5-1,花卉图形资料库的抽象化图形与目标图形...............................52
图5-2,花卉图形资料库抽象化图形之特性查询结果...........................52
图5-3,史奴比图形资料库的抽象化图形与目标图形...........................53
图5-4,史奴比图形资料库的抽象化图形之特性查询结果...................53
图5-5,猫图形资料库的抽象化图形与目标图形...................................54
图5-6,猫图形资料库的抽象化图形之特性查询结果...........................54
图5-8,针对目标图形的随机搜寻之查询次数分析...............................57
图5-9,针对相似图形群组的随机搜寻之查询次数分析 (花卉图形资料
库,相似图形群组数目3).................................................................59
图5-10,针对相似图形群组的随机搜寻之查询次数分析 (花卉图形资料
IV
库,相似图形群组数目10)...............................................................59
图5-11,针对相似图形群组的随机搜寻之查询次数分析 (史奴比图形资
料库,相似图形群组数目3).............................................................60
图5-12,针对相似图形群组的随机搜寻之查询次数分析 (史奴比图形资
料库,相似图形群组数目10)...........................................................60
图5-13,针对相似图形群组的随机搜寻之查询次数分析 (猫图形资料
库,相似图形群组数目3).................................................................61
图5-14,针对相似图形群组的随机搜寻之查询次数分析 (猫图形资料
库,相似图形群组数目10)...............................................................61
图5-15,抽象化图形与随机相似图形的查询效能比较 (花卉图形资料
库,相似图形群组数目3).................................................................62
图5-16,抽象化图形与随机相似图形的查询效能比较 (史奴比图形资料
库,相似图形群组数目3).................................................................63
图5-17,抽象化图形与随机相似图形的查询效能比较 (猫图形资料库,
相似图形群组数目3).........................................................................63
图5-18,使用者查询方法之比较.............................................................64
图5-19,查询时间与资料库大小之关系-利用颜色特性搜寻...........65
图5-20,查询时间与资料库大小之关系-利用材质特性搜寻...........66
图5-21,查询时间与资料库大小之关系-利用形状特性搜寻...........66
图5-22,查询时间与资料库大小之关系-利用综合特性搜寻...........67
1
第一章简介
1.1 研究动机
由於无线通讯设备的普及,例如:行动电话(mobile cell),PDA个人数位助理
器 (personal digital assistant),手提式电脑 (notebook) 等皆可以用来传送,接收
讯息.无线网路频宽的增加,和无线传输技术的改进,我们认为无线环境的发展
一定会愈来愈快,也会愈来愈好.因此,在无线环境中发展应用系统是必须要作
的.
无线环境中有许多的问题是我们需要克服的,例如 : 断线的频繁,电源的
限制,操作的不便等等.其中操作的不便是我们想要克服的一个问题.无线通讯
设备由於要顾及机动性,产品的体积都比较小,输出入装置就相对被简化.我们
看到现在的无线产品大都只有数字键,和几个方向键,比较小型的笔记型电脑的
键盘也是非常小,不太好操作.针对这样的情况,我们想到利用语音介面来作输
入介面,改善无线环境中的操作不便性.发展语音介面的应用系统,另一方面对
於一些身体有缺陷,不方便使用键盘操作电脑的使用者来说,可以提供一个新的
方式来使用电脑.
无线环境的频宽愈来愈高,要在无线环境上传输影像资讯是一件指日可待的
事.传统的影像资料库,对於范例图形的产生,大部份都是随机产生一组待选的
范例图形,然后由其中选出一张图形当作范例图形来进行影像检索.在无线环境
中,如果要先准备一组待选的范例图形,就需要很大的频宽来传这些范例图形,
而且使用者并不一定会满意系统随机所选的图形,如果不满意,则系统必须重新
准备一份范例图形,这在无线环境中是很浪费频宽的.我们认为由使用者描述范
例图形,再作影像资料搜寻,这样可以提高搜寻的准确度,降低搜寻的次数,也
就可以减少频宽的浪费.
2
1.2 研究目的
我们看到了无线环境的发展,也了解无线环境的问题,我们的研究目的是建
立一个在无线环境中利用语音来撷取影像资料的模组化架构.系统的设计目标,
是希望能够使用不同的语音查询介面,让使用者可以在无线环境中查询不同影像
资料库的影像资料.
语音辨识和影像资料搜寻是目前非常重要的技术,两种研究也都已经有不错
的成果出现.但是两方面的研究都是封闭的,语音辨识的研究者主要是研究如何
提高语音辨识的正确率,而影像资料搜寻研究者主要是研究如何使影像资料搜寻
更快更正确.这两方面的研究可以是独立的,但我们想要让使用者在无线网路环
境上能够快速而有效地撷取影像资料库,势必要结合语音辨识和影像资料搜寻的
技术.
为了要能够结合这两个研究,我们必须将整个系统架构,影像资料表示的方
式都作一个完整的考量,才能顺利的结合这两个研究.提出整个模组化的系架构
并实作出来是我们的研究目的.
1.3 研究方法
使用者在无线环境中,有很高的机动性,我们必须让使用者可以轻易配合不
同的语音辨识介面和影像资料库.另一方面,我们将系统模组化,尽量使用现有
的系统,这样只要语音辨识系统,影像资料库系统有更新的时候,我们的系统也
可以同步更新,这样可以让使用者永远有最新的系统可以使用.
要将语音辨识系统独立出来,我们定义了一套图形描述与查询控制语言
(image descriptionand query control language),结合语音辨识可以将使用者的口语
转换成系统可以了解的命令.图形描述与查询控制语言是利用关键字萃取的技术
来完成口语的转换,因此可与任何一种语音辨识介面结合.
3
为了要与不同的影像资料库结合,我们利用XML表示系统中的资料库查询
资讯,SVG表示系统中的影像资料,这使得我们系统中的资讯都是标准化的格
式,只要资料库支援这两种资料格式,我们就可与之结合.如果资料库不支援这
两种资料格式,透过XSLT的转换我们可以将所需之资讯转换成资料库可以了解
的格式.透过XML和SVG这两种标准的语言来描述我们系统的资讯,只要配
合XSLT转换,我们就可以支援不同的影像资料库.
1.4 研究成果
我们在这篇论文中提出一个利用语音撷取影像资料库的模组化架构.整个架
构包括 : 语音辨识介面,图形查询引擎,影像资料库,查询结果整理和显示介
面.
我们利用图形描述与查询控制语言,可以利用口语描述抽象化图形,当作影
像查询的范例图形,这样可以得到非常好的效果.
我们将系统中的资料库查询资讯用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在与其他的系统结合时,资讯交换
变得很容易.
我们实作的系统采用声硕科技的「说亦通」中文听写系统来当语音辨识介
面,影像资料库是采用IBM的QBIC 影像资料库.我们建立了三种图形资料库
来作测试,一是花卉图形资料库,二是史奴比图形资料库,三是猫图形资料库.
我们利用使用者描述的抽象化图形当范例图形来作影像资料搜寻,利用形状
特性搜寻,三种图形资料库都查询一次就可以得到结果.我们使用抽象化图形当
范例图形,这样的结果我们认为不错.
我们分析查询时间,发现资料库查询资料的转换时间占了10 %左右,这样
的比例,我们认为不是很大负担.
我们的系统提供了一个操作电脑的新方式,这是我们系统所作的贡献.
4
1.5论文架构
我们的论文共有六章,现详述如下 :
l第一章简介 :
介绍我们的研究动机,研究目的,研究成果,并简介本篇论文的结构与章节
的介绍.
l第二章相关研究 :
介绍与我们论文相关的研究课题.
l第三章系统理论与架构 :
介绍我们系统的理论基础 : 图形描述与查询控制语言,资料标准化格式,
资料库查询资讯转换方式,及系统架构.
l第四章系统功能 :
介绍系统发展环境,系统执行流程,及系统功能说明.
l第五章系统效能分析 :
介绍我们所作的实验和实验结果.
l第六章结论与未来展望 :
介绍我们的结论与未来发展的方向.
5
第二章相关研究
2.1 行动计算环境
「行动计算」顾名思义便是在无线网路环境之下进行资讯的传递与处理,是
属於相当便捷快速的资讯服务方式,以达到无空间与时间上的限制,皆能取得的
服务.目前由於网路的急遽发展,使得资讯的传递更加的迅速,而资讯的资料量
也相对地增加,加上电脑的运算速度越来越快,固定式的点对点的有线传递方式
已不能满足现代人的需求.
由於无线通讯设备的普及,例如 : 行动电话 (mobile cell),PDA个人数位
助理器 (personal digital assistant),手提式电脑 (notebook) 等皆可以用来传送,
接收讯息.无线网路频宽的增加,和无线传输技术的改进,使得我们可以利用无
线通讯设备来连接网际网路撷取全球资讯网的资讯.Daninel BarBara 提出的行
动计算环境架构有下列部份 (如图一) [4]:
1.Mobile Unit(MU):为行动式电脑.即具有无线传递资讯能力的可携式电脑
或掌上型电脑,例如:笔记型电脑(notebook),个人数位助理(PDA)等
等.使用者可带著它随处移动,随时经由无线网路取得资讯,不受时间,空
间的限制.
2.Mobile Support Station(MSS):为行动支援主机或基地台.亦称Base Station
(BS).是指固定在有线网路上与网际网路相连的某一端点,做为行动式电
脑与有线网路的媒介.其主要是提供无线通讯的能力,能和行动式电脑做资
讯相互的沟通,传递讯息资料,并提供资讯服务.
3.Fixed Host(FH):为固定式主机.亦称Stationary Host(SH). 即 指 目 前 有
线网路上的主机,以有线的方式连接上网际网路.
4.Wireless Cell:一部MSS所发射的电波能涵盖的范围.
6
图2-1,行动计算架构[4]
利用许多的mobile client所构成的无线网路环境,可以视为一个分散式系
统.在无线网路环境中仍有一些特性是分散式系统所没有的,Daniel Barbara 提
出下列四种特性:[4]
1.通讯的非对称性 (asymmetry in the communication):在无线网路环境中,上
传 (从客户端至伺服器端),与下传 (从伺服器端至客户端)的频宽是不一样
的.通常下传的频宽远大於上传的频宽.
2.断线的频繁 (frequent disconnection):无线通讯设备都有很高的机动性,使
用者可以经常的开辟连线设备,这就造成断线的情形.使用者在无线网路中
是会移动的,如果使用者进入信号微弱的区域,也很容易造成断线.
3.电源的限制 (power limitation):行动式设备是很依赖电池电源的,但由於电
池的寿命受限,相对的也影响到行动式设备的便利,虽仍能接有线电源,但
在移动中或某些环境下,有线电源是无法使用的,仍要靠电池来维持.
4.萤幕尺寸 (screen size):为了顾及方便性,一般的无线通讯设备都只有小尺
寸的萤幕.使得无线网路环境上的应用程式介面需要特殊设计.
7
行动计算环境虽然提供我们一个相当便利的资讯处理环境,但是其环境仍然
有相当多的问题需要解决与改善.M. Satyanarayanan提出了在无线网路环境下
可能会遭遇到的问题:[30]
1.资源缺乏(resource poor):无线网路环境上,使用者在使用的配备都是属於
移动性高的设备,如notebook,PDA或WAP手机等.我们考量的是配备上
的可携性,即指它的大小,重量皆要适合使用者携带,所以在硬体的设备上
都会受到某种程度上的限制.所以行动式设备所能处理的功能会受到限制而
阻碍到效能的发挥.
2.连线的效能和可靠度(connection performance and reliability):在 无 线 网 路 环
境上传输资料,最怕的是重要的讯息被阻碍,而导致断线,尤其在建筑物中
最易发生,资料如何能不受阻碍或干扰的情形下到达使用者的设备上,是一
个重要的研究课题.而在无线网路的连接上,若是由一个高频宽
(high-bandwidth)的网路传输资料到低频宽(low-bandwidth)的网路,有
时会因为频宽的不足而影响资料的传递品质.
3.安全性的考量(security consideration):由於行动式设备是以无线传输的方
式传递资料,因此很容易就会被窃取到资料.所以利用完善的编码技术来达
到资讯的安全性是很重要的.
4.有限的能源(finite energy source):行动式设备是依赖电池电源的,因此影
响到行动式设备的便利.
无线通讯设备上有种种限制,我们必须思考一个比较好的方式,让使用者能
够很方便的使用网际网路上资料.网际网路上的资料,由於频宽的增加,不再只
是文字资料,也有许多的影像资料.无线网路环境中操作的不便,使用者无法使
用一般的键盘来作复杂的输入,语音输入就成为最自然的选择.而如何利用语音
输入来完成影像资料的查询就成为一个可以研究的课题.
8
2.2 语音介面
人类最自然的沟通方式,应非语音莫属.微软总裁比尔 盖兹在"拥抱未来"
一书中提到「在未来的五年当中,语音辨识,社会介面和高速公路连结器,都将
放入主要的应用软体中.到时候,不论公司或个人都会对那些可提升效率,及生
产力的新版本趋之若鹜.」表示语音辨识技术是未来软体三个新兴技术之一[18].
但是语音输入在电脑上的发展却是困难重重的.在语音输入方面,语音辨识
必须与自然语言处理系统结合,以使电脑可以了解口语的指令.这里包括两大领
域,一是语音辨识,二是自然语言处理.语音辨识的部份,由於现今半导体技术
的突飞猛进,数位讯号处理器 ( digital signal processor,DSP ) 的功态愈来愈强
大,甚至连个人电脑 ( personal computer,PC ) 的功能也愈来愈强大,因此现在
要作语音辨识已不再是一件遥不可及的事.只是辨识的正确率,或对不同发音的
接受程度上,尚未尽如人意.自然语言的处理,就更是一项高难度的工作.
2.2.1 语音辨识技术分类
工研院电通所张照煌博士,把语音辨识技术,根据词汇大小,系统训练,及
发音方式做了以下的分类.[45]
l依词汇大小分为 :
n小字汇 (小於100词).
n中字汇 (100 - 1000词).
n大字汇 (1001 - 10000词).
n极大字汇 (大於10000词).
l依系统训练分为 :
n特定语者 (Speaker-Dependent):使用前需训练数十分钟至数小时.
n非特定语者 (Speaker-Independent):不需训练,可立即使用.
n系统调适 (Speaker-Adaptation):数分钟至数十分钟的调适训练.
9
l依发音方式分为 :
n单字音:字与字需断开.
n单词连续发音:分为孤立词,及词词断开,连接成句两种.
n整句连续语音: 分为关键词萃取(Keyword Spotting)及全句辨识两种.
2.2.2 语音辨识产品介绍
我们可以参考一下现在市面上语音辨识的产品介绍,就大概可以知道语音辨
识发展的成熟度如何.
声硕科技承接了台大李琳山教授所研发的「金声三号」,将之商品化,推出
了国内第一套辨识率高,界面友善的「说亦通」中文听写系
统.最新版的说亦通2000 有下列特色:[47]
1.内建专业词库,内建电脑通讯,法律规章,时事新闻等专业词库,专业行话
一样轻松辨识.
2.适用所有应用软体,直接支援所有应用软体,如Office 2000,Office 97,
Outlook,Corel Draw 8.0,I.E,Netscape,ICQ及网际搜寻等.
3.个人专属语音模型.经由口音训练系统,为你量身制作个人语音模型,提升
辨识率.
4.整篇文章学习功能.可剪贴转载整篇文章或及特定文件,使电脑了解你的专
业语法.
5.智慧型可携式设计,个人专属语音档案及自建词库均可带著走.
6.每分钟听写150字以上,辨识率可达95%以上.
7.独具自动标点符号系统.
8.拥有多功能语音控制系统,声控电脑不是梦.
9.整合式工具列,统合语音辨识,语音控制及线上求助等功能.
10.内建词组六万组,使用者还可不受限制地自订个人专用词库.
11.自动线上学习功能,让你的电脑愈用愈聪明.
10
IBM 推出的「Via Voice快乐颂」语音输入软体,是利用IBM 自己所发展
的语音辨识引擎所研发的.这个产品有下列特色: [40]
1.直接听写到 Microsoft Office,Lotus SmartSuite.
2.在CICQ,ICQ等不具备语音能力的应用程式直接听写.
3.连续语音输入,平均每分钟听写100个字以上,辨识率可达98%.
4.提供多媒体操作教学,只要语音输入三句话,立即可以上线使用.
5.提供6万个基本词汇,20万个词汇备份字典,另有6万个使用者自订词汇.
6.配合语音命令,轻松作文字更正与修改.
7.具备学习功能,可以不断提高辨识率.
8.允许多位使用者在同一台电脑上使用,并建立各自的口音模型.
由以上的功能我们可以知道语音辨识的技术已有一定的水准.虽然不是尽善
尽美,但也还可以接受.我们就利用现成的语音输入软体来当作语音辨识介面,
使我们可以了解使用者的语音命令.
使用者的语音命令在我们的系统中是用来作影像资料搜寻.语音经过语音辨
识介面后,就变成电脑可以处理的文字形式.我们希望能够利用这些文字来完成
影像资料搜寻.这些文字首先必须能够表示影像资料,再来是查询命令.用文字
表示影像资料,我们使用可缩放向量化图形 ( Scalable Vector Image, SVG ) 来作
我们的语言.SVG 利用可延伸标签语言 ( Extensible Markup Language, XML )
为基础来描述向量图形的影像资料.我们接下来介绍XML及SVG.
2.3可延伸标签语言XML
可延伸标签语言 (Extensible Markup Language, XML)[9][44]是标准通用标签
语言 (Standard Generalized Markup Language, SGML) [42]的 子 集 合.XML被用来
描述XML文件和处理XML件的部份行为.XML是一个开放的,以文字为基础
的标签语言,它可以提供资料的结构及与语意有关的资讯.
11
标准通用标签语言(Standard Generalized Markup Language, SGML)是提供
描述电子文件的规范,即提供对文件进行结构化的法则,当文件经由这种标准通
用的结构化处理后,就可被广泛的使用.SGML在被制定时就没有预期要应用在
某些特殊的软体上,所以能满足不同领域的使用者,而文件可以被储存在不同的
平台上.同一份SGML的文件可以在不做任何变更修改的条件下,就可以被不
同的的应用软体来使用,且经由每一个应用软体产生的效果可能完全不一样.
SGML标示语言的优点在於稳定性高,可携性高和完整性高.
l稳定性高:国际标准规范,因此公信度高,而结构也较严谨.
l可携性高:文件可以跨平台使用,甚至可被不同的应用软体来使用.
l完整性高:制定时就考虑要满足广泛的使用者,所以其规范制定较完整,可
满足不同应用领域的需求.
William J. Pardiy 指出XML保留了SGML的主要优点: [29]
lXML为通用的标签语言;作者能定义自己的标签集( tag set ).
l文件具有自我描述立能力.
l文件的有效性可以被确认.
Bert Bos有提到十点XML的特性[6]:
1.XML是一种将结构化资料放在文字档中的一种方法.
2.XML看起来像是HTML,但却不是HTML.
3.XML是文字档,但不代表容易阅读.
4.XML是一系列的技术.
5.XML是冗长的,但这不是问题.
6.XML是"新"的,但不是"全新"的.
7.还不知道.
8.还不知道.
9.还不知道.
10.XML 是跨平台,而且免费.
12
2.3.1 XML的目标
XML是为了能有效地在Web中运作而设计的.但是,XML仍能在Web以
外的环境中运作.例如 : 使用XML当作一种资料转换格式,使用XML以便处
理Web资料.XML的规格中列出XML的目标 : [44]
lXML要能在网际网路中直接地使用.
lXML应广泛支援不同种类的应用程式.
lXML应与SGML相容.
l处理XML文件的程式应很容易撰写.
lXML选择性功能 ( optional feature )应保持在最少数目,理想情况为零.
lXML文件必须易读且清楚明了.
lXML文件应可被快速制作.
lXML的设计应力求严谨与简明.
lXML文件应易於产生.
lXML标示符号不可太过精简.
2.3.2 XML的应用
由於XML是经过良好的设计,许多XML的应用也就迅速出现 :
l同步多媒体整合语言(Synchronized MultimediaIntegration Language, SMIL)
[27].
l数学标签语言( Mathematical Markup Language, MathML )[12].
l资源描述架构( Resource Description Framework, RDF ) [33].
lXML链结语言( XML Linking Language, XLink )[35].
l可延伸样式表语言( Extensible Stylesheet Language, XSL )[25].
l可缩放向量图形( Scalable Vector Image, SVG ) [24].
13
2.4 可缩放向量化图形SVG
可缩放向量化图形 (Scalable Vector Image, SVG) 是利用XML语言来描述
平面图形的一种语言[8][24].SVG是用XML语言来描述的,是以字元为基础的
(text-based)图形描述方法.这样许多现有的查询引擎就可以将SVG拿来作索引
(index).使用者也可以查询图形中的文字资料,例如 : 一个图形中的文字说明,
地图中某一街道的名称等等.
现今网际网路上的影像大都是以二元映像格式 (bitmap format) 储存,由於
要将每一像素(pixel) 的值都存起来,因此每一张影像所占的空间都非常大.即
使利用许多的压缩方法,例如 : JPEG,GIF,PNG等等,还是无法令人非常满
意,造成影像资料在网际网路上传输的效率一直不是很好.由於二元映像格式是
储存像素的资料,当我们要作放大,或缩小就会有很大的失真 (如图2-2).
SVG所采用的向量式图形不储存每一像素的资讯,而是储存图形中的形状
( shape ) 与路径 ( path ).因为一张影像是由直线,椭圆,弧形,长方形和其他
形状所构成,经由记录所有形状的几何资讯就可以描述出一张影像.只要改变形
状的几何资讯,我们就可以轻易达到缩放 (scalable)和其他的功能.由於每一次
影像的改变,都是由新的几何资讯来绘制,不会有失真的情形出现 (如图 2-3).
图2-2,二元映像格式图形放大后失真
14
图2-3,向量式图形放大后不失真
由以上的说明,我们可以知道SVG采用向量式图形的理由.Tad Lane有对
SVG与其他影像档案作一个比较[22],他利用图2-4来作测试图形,结果如下:
lGIF-2,420 bytes.
lPNG-1,541 bytes.
lSVG-550 bytes.
我们由以及的结果可以看出来,委利用SVG来描述图形,的确可以有效的
降低图形档案大小.这对节省网路传输的频宽是非常有帮助.另一方面由於SVG
采用XML来描述,SVG就可以被拿来当作是一个标准的介面,成为网路上描述
图形的标准语言.
图2-4,Tad Lane的SVG测试图形[22]
15
2.5 以内容为基础之影像检索
一张图片可以胜过千言万语.因此,如何将影像纳入资料库作管理,一直是
很多学者的研究课题.而其中的影像资料检索 (image retrieval),更是吸引了无
数的学者的投入[3][5][23][37].
影像资料不同於文字资料的地方,在於影像资料是由每一像素的颜色值所构
成的.我们很难用一般的文字来完全描述一张影像资料.为了作影像资料的搜寻
与管理,我们必须对影像资料作一分析.Y. A. Aslandogan和C. T. Yu 将影像资
料分成可见特性 (visual features) 和不可见特性 (nonvisual features) [3].
2.5.1影像资料的可见特性
影像资料的可见特性,是指影像资料中我们可以实际感觉的部分.这是我们
对一个影像资料最直接也是最难描述的部份.A. Yoshitaka, 和T. Ichikawa,将可
见特性分成下列四种 : [37]
1.颜色 (color) : 我们可以用不同的颜色的表示方式来表示颜色,常见有
red-green-blue (RGB), hue-saturation-intensity (HIS), 等等的方式.我们可以利
用影像资料中每一点的颜色,来分析影像资料.例如 : 颜色统计资料 (color
histogram),A.P. Berman, L.G. Shapiro提出将颜色资料配合空间关系(spatial
relation)资料[5],这样可以得到更详细的资讯.
2.材质 ( Texture ) :材质是影像资料中重复出现的简单样式.这也是影像资料
很重要的一个特性.材质分析可分两种 : 统计的分析 (statistical analysis)
和结构的分析(structural analysis).
l统计的分析是在一材质视窗 (texture window) 量测各种性质的变化强
度.例如:对比 (contrast) 程度:高对比的班马皮肤和低对比的大象皮
肤.粗糙(coarseness) 程度:细密的鹅卵石和粗糙的石头.方向性
(directionality): 有方向性的纺织品和没有方向性的草地.
16
l结构的分析是从影像资料中设法得到材质元件 ( texture element ),用来
决定形状并且推测出这些元件的放置法则(placement rule).放置法则描
述了元件之间相互摆设的关系,并且也要量测连接性(connectivity) : 立
即相邻的元件数目,密度 (density) : 单位范围内的元件数目,一致性
(regularity) : 元件摆放的方式是否相同.
3.空间关系(spatial relationship) : 空间关系是用来描述影像资料中,各个物件
的相对位置.Y. Gonget al. 定义了八种空间关系[19]:分离 (disjoint),接触
(meet),部份重叠 (overlap),包含(contain),覆盖(covers),在内部 (inside),
被覆盖 (covered-by),平等(equal).地理资料库(geographical databases) 是
这种方法的最典型应用[14][20][26].
4.形状(shape) : 利用影像资料中各个元件的形状来作查询.形状的来源有二
种 : 一是给一张包含有所要查询形状的图片或影像资料;二是使用者徒手
绘出的形状.
2.5.2 影像资料的不可见特性
一些商业化影像资料库系统,经常使用关联式资料库的技巧来增强影像资料
库的资料型态.用来描述影像资料的栏位有 :影像资料的来源 (source),建立的
日期与时间,内容型态 (media type),解析度(resolution),输入装置 (input
device),压缩方式(compress method),随意的文字注解 (free text annotations)等
等.这些都是影像资料中主要的不可见特性.
说明 (caption) 与注解,是对一个场景 (scene)随意的文字描述.这样的方
式对使用者来说是很自然的方式,一般的文字查询方法也可以应用.但是,不同
的人对於同样的场景会有不同的描述.人们用不同的话来描述,或描述同一张影
像中不同的部分,而且每一个人描述的详细程度也不一致.因此,用文字来描述
一张图会造成很大的混淆(ambiguity) [1][31][36].
17
结构化描述 (structured description) 可以利用有限制的自然语言,符号
(symbolic),或图示(iconic)来描述影像资料中物件(objects) 的性质(attributes),
和关系 (relationship).[2][23][38].
2.5.3 影像资料的查询
Yoshitaka 和T. Ichikawa 认为一个影像资料的查询以查询中所包含的可视
特性,可分为下列四种 : [37]
1.简单的可视特性查询 (simple visual feature query) : 使用者利用指定某些特
性的大小,来查询影像资料.例如 :
"寻找一张有 50%红色,25% 绿色,25% 蓝色的影像"
2.特性组合查询(feature combination query) : 使用者组合不同大小与权重的
特性,来查询影像资料.例如 : "
"寻找一张绿色有树木材质影像,其中颜色占75%,材质占25%"
3.区域特性查询 (localized feature query) : 使用者利用指定在影像画布
(canvas)中某个区域的特性值来作影像查询.例如 :
"寻找一张上半部天蓝色,下半部为绿色的影像资料"
4.范例查询 (query by example) : 系统本身先随机产生一组影像资料,供使用
者挑选出一张影像资料,当作范例.使用者可利用此范例,来查询与范例中
某个特性相像的影像资料.例如 :
"寻找与范例有相同材质的影像资料"
依使用者从范例影像中撷取的部份来作的查询条件,可分成下列四种 :
1.物件查询 (object query) : 使用者利用描述影像中某个物件的特性,而不是
描述整张影像,来作查询条件.例如 :
"寻找有一辆红车在中央的影像"
18
2.使用者定义性质的查询(user defined attribute query) : 使用者利用指定使用
者定义性质的大小来查询.例如 :
"寻找一张解析度300X600,日期为2000/6/5的影像."
3.物件关系的查询(object relationship query ) : 使用者利用描述物件的性质和
关系来作查询.例如 :
"寻找一张男孩手拿网球拍的影像"
4.概念式查询(concept queries) : 某些系统可以让使用者利用系统所撷取出来
的特性,来定义一些概念.例如,我们可以定义海滩为 :
"黄色的圆形在上方,很大的蓝色四方形在中间,底部是沙子的颜色"
2.5.4 以内容为基础的影像查询系统
QBIC(Query By Image Content) 是由IBM Almaden 研发中心所发展的一套
影像检索系统[16][17][28][41].QBIC可以使用颜色 ( color ),材质 ( texture ),
形状 ( shape ) 等可视的特性,和文字 ( text ) 的不可视特性来作查询.它提供了
完整的程式发展介面( application programming interface, API ),可以让我们发展
自己的影像检索系统.
中央研究院资讯科学研究所,研发出以影像内涵为基础的台湾鱼类查询系
统.可以利用颜色和形状来作鱼类的查询.先在随机产生的五条鱼中,选出与欲
查询之鱼类最相近之图片.然后设定查询时的形状,颜色的优先程度.就可查询
出与查询最接近的鱼[46].
Oracle8i Visual Information Retrieval是Oracle 资料库所提供最新的功能,它
能提供使用者将影像资料作完善的管理.它可以利用以下的特性来作查询 :
l广域的颜色( global color ) : 颜色的值与区域无关.
l区域的颜色( local color ) : 颜色的值与区域有关.
l材质( texture ) : 影像中重覆出现的样式( pattern ).
l结构 ( structure ) : 也就是影像中的形状 ( shape ).
19
第三章系统理论与架构
我们的研究目标,是建立一个在无线环境中利用语音来撷取影像资料的模组
化架构 ( modular framework ).系统的主要目标,希望能够用一致的语音查询介
面,让使用者可以在无线环境中查询不同影像资料库的影像资料.系统中所有的
功能皆已模组化,要更换语音介面,或是增删影像资料库,都是可以轻易完成的.
在无线环境中,无线连线设备的要求是轻薄短小,这造成了操作的不便.行
动电话,PDA等等的设备都没有很大的输出入装置.因此,我们利用语音来当
作输入介面,让使用者可以利用语音来搜寻影像资料.要建立一个由语音介面来
撷取影像资料的系统,必须考量下列事项 :
l语音辨识介面 : 透过这个介面我们可以将使用者的口语转换成文字.
l查询的表达与产生方式 :我们定义了一套将文字转换成控制命令的图形描
述与查询控制语言,这个图形描述与查询控制语言可以让使用者产生影像查
询所需的范例图形与查询条件.
l资料库查询资讯和影像资料的标准格式 : 我们利用XML语言来描述所有
的资料库查询资讯,资料库查询资讯需要作转换时,只要经过XSLT的转
换.我们可以让使用者同时搜寻多组的影像资料库,只需面对相同的使用介
面.我们的系统是在无线环境上运作,如何用最佳的方式来表达影像资料,
降低网路传输的负担,是我们首要的目标.我们利用SVG来描述影像资料,
可以符合我们的需求.
l资料库查询资讯转换 : 在我们的系统之中所有的资讯都已经建成标准化的
格式,因此,对於不同的资料库系统,我们必须作不同的转换才能得到每个
资料库所需要正确的资讯.
20
3.1系统架构图
我们已经解释了我们系统的目的和所要解决的问题,底下我们将说明系统架
构图(如图3-1),共有六大部份:
l语音辨识介面.
l图形查询引擎.
l查询产生器.
l影像资料库.
l查询结果整理.
l查询结果显示.
语音介面
范例图形及影像资
料库标准化格式产
生器
影像资料库
图形描述与
查询控制
语言
xml
档案
查询结果整理
影像资料库传回之影像与文字资料
范例图形产生及查
询修改
影像与文字资料
语音
输入
查询结果显示
DB1
query1
查询产生器1
DB2
query1
查询产生器2
DB3
query3
查询产生器3
DBn
queryn
查询产生器n
query4
查询产生器4
...
图 形 查 询 引 擎
::
图3-1,系统架构图
21
3.2 语音辨识介面
语音辨识介面(speech recognition interface) : 将使用者的口语转换成文字字
串,让电脑可以作一步的处理.这一部份有现成的套装软体,或API可以参考使
用.一般的套装软体可将语音输入视为一种输入法,因此使用者可选择不同的语
音辨识软体来作介面.我们利用图形描述与查询控制语言(image descriptionand
query control language)来将文字字串转换成控制命令.
经过语音辨识后的文字字串,必须符合我们图形描述与查询控制语言的定
义,如此我们才能真正了解使用者的意思,完成使用者的命令.如果我们不定义
一组控制命令,那麼对於命令字串的处理,就需要自然语言处理(nature language
process) 的技术.这一方面的技术现今仍不太成熟,所以我们定义一组控制命令
的方式来了解使用者的语意.
3.3图形描述与查询控制语言
图形描述与查询控制语言可以让使用者产生范例图形,和设定影像资料库的
查询条件.图形描述与查询控制语言包含两大类,如图3-2 :
l图形物件控制命令 : 用来控制范例图形中形状物件(shape object) 的 状 态.
n图形物件操作命令
n图形物件可视特性设定命令
n图形物件可视特性修改命令
l资料库查询资讯设定命令 : 用来设定资料库查询条件,与图形相关特性资
料.n设定查询条件
n输入图形物件之不可视特性
22
图形描述与查询
控制语言
图形物件操作命令
图形物件可视特性
设定命令
图形物件可视特性
修改命令
设定查询条件
输入图形物件之
不可视特性
图形物件控制命令资料库资讯设定命令
增加物件
选择物件
复制物件
删除物件
颜色形状尺寸颜色形状尺寸
查询反应时间
查询回传数目
其他查询条件
图形说明
图形形态
其他图形资讯
位置位置
图3-2,图形描述与查询控制语言架构图
3.3.1图形物件控制命令
以本文内容为基础的影像检索,对於使用者来说是比较自然的方式.许多的
影像资料库,对於范例图形的产生,大部份都是随机产生一组待选的范例图形,
然后由其中选出一张图形当作范例图形来进行影像检索.这样有一个问题,因为
大部份的使用者在作影像检索前,对於自己要检索什麼样的影像资料都已经有一
个初步的想法.如果能设计一个方式,让使用者表达他们所想要的图形,应该比
随机产生的图形,更能符合使用者的需要.基於这个想法,我们结合区域性查询
和概念式查询,来产生范例图形.图形物件控制命令包括下列部份 :
23
l图形物件操作命令 : 控制整个范例图形中图形物件的状态.
n增加图形物件.
n删除图形物件.
n复制图形物件.
n选择图形物件.
l图形物件可视特性设定命令 : 用来设定各个图形物件的可视特性.
n形状 (shape) : 设定基本图形,正方形,长方形,圆形,椭圆形,三角
形,梯形,及一些事先设计的的样板图形.
n颜色(color) : 指定图形物件的颜色.我们使用RGB颜色空间 (color
space) 来表示颜色,使用者可选择事先定义的颜色,或自行设定R,G,
B的值来决定颜所需要的颜色.
n位置(location) : 我们将图形的可视区域分为九个大区块,使用者先利
用大区域初步决定图形物件的位置,再利用可视特修改命令来决定正确
的位置.
n尺寸(size) : 我们将图形物件的大小,先粗分成大,中,小三种尺寸,
由使用者选择一个尺寸后,再利用可视特修改命令来决定适合的尺寸.
l图形物件可视特性修改命令 : 我们可以修改图形物件的特性,以得到符合
需求的范例图形.
n颜色 : 使用者可以更改颜色中R,G,B的任一个值,或是变亮,变暗
更改颜色的明暗度,这样可以得到使用者真正所需要的颜色.
n位置 : 我们提供往上移,往下移,往左移,往右移,往左旋转,往右
旋转,让使用者控制图形的空间关系,以便使用者可以组合出心中所想
要的图形.
n尺寸:我们提供变大,变小,变长,变宽让使用者改变图形的尺寸.
24
3.3.2资料库查询资讯设定命令
资料库查询资讯设定命令 : 用来设定资料库查询资讯.包括下列两种命令 :
l设定查询条件 : 针对不同的影像资料库,我们可以让使用者设定不同的查
询条件.这样才能得到最佳的查询效果.例如 : 可以设定查询的反应时间,
或查询回传数目等等.
l输入图形物件之不可视特性 : 我们前面提到有一些影像资料库会将关连式
资料库的技巧带进来,使用者需要输入一些文字资料,来作查询的条件.常
见的是每一张影像资料给定一个关键字,然后利用此关键字来作查询.
3.4 图形查询引擎
l范例图形及查询修改(sample image and query modify) :当使用者利用语音下
了控制命令,我们必须执行控制命令.对於图形控制命令,我们将显示范例
图形来反应使用者的修改,并将所有图形的状态都储存起来,作为范例图形
产生的依据.范例图形的产生方式有两种,一是利用基本图形组合,二是选
择样板图形,再加基本图形组合而成.对於资料库查询资讯设定,我们只要
将所有的设定储存起来,并将设定反应给使用者知道.
l范例图形和资料库查询资讯标准化格式产生器 (sample image and database
information standard format generator) : 由於我们的影像资料库不是只有一
组,但是我们的范例图形与使用者的查询条件,只有一组.为了让这一份资
讯能够适合所有的影像资料库,我们必须使用通用的表示法来表示.我们采
用XML来作为资料库查询资讯的表示方法,利用SVG来表示范例图形.
这样对於搜寻影像所需要的资讯我们就有很好的描述.
25
3.4.1 范例图形产生范例—利用基本图形
我们利用图形物件控制命令,可以造出范例图形,底下我们将图示其过程 :
步骤1 : 输入"背景颜色",选择黑色为背景颜色.
步骤2 : 输入"形状",选择圆形.输入"颜色",选择红色.输入"位置",
选择"中"的位置.输入"大小",选择"大"的尺寸.输入"增加图形",最
后利用位置与尺寸修改命令,调整合适的位置与尺寸.
26
步骤3 : 输入"复制形状",选择"1".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤4 : 输入"复制形状",选择"2".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤5 : 输入"复制形状",选择"3".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
27
步骤6 : 输入"复制形状",选择"4".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤7 : 输入"复制形状",选择"5".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤8 :输入"复制形状",选择"6".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
28
步骤9 : 输入"形状",选择"长方形".输入"颜色",选择"绿色".输入"位置",
选择"右下"的位置.输入"大小",选择"小"的尺寸.输入"增加图形",
最后利用位置与尺寸修改命令,调整合适的位置与尺寸.
步骤10 : 输入"复制形状",选择"8".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤11 : 输入"复制形状",选择"9".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
29
3.4.2范例图形产生范例—利用样板图形
利用基本图形组合范例图形是比较辛苦的工作,我们提供了样板图形来加快
范例图形的建置,以下是建置过程 :
步骤1 : 输入"样板图形",将出现样式图形选择视窗.
步骤2 : 在样板图形选择视窗中,选择红花的样板图形.
30
步骤3 : 输入"形状",选择"长方形".输入"颜色",选择"绿色".输入"位置",
选择"右下"的位置.输入"大小",选择"小"的尺寸.输入"增加图形",
最后利用位置与尺寸修改命令,调整合适的位置与尺寸.
步骤4 : 输入"复制形状",选择"8".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
步骤5 : 输入"复制形状",选择"9".利用位置与尺寸修改命令,调整合适的位
置与尺寸.
31
3.4.3 范例图形的标准化格式
我们的范例图形是由许多的形状物件所组成的.在SVG中每一种形状都用
一段文字叙述来表示.使用者利用图形物件控制命令所建立的图形,全部都可以
转换成SVG的表现方式.不论是形状,颜色,位置,尺寸皆可记录在SVG中 .
如果需要使用SVG中的图形,我们只要剖析整个SVG,然后将图形重绘一遍,
就可以得到原来的图形.
由於SVG是用文字来描述图形,整个图形的档案的大小会变得比较小.这
样对於无线网路环境是比较有利的.另外一点,我们前面提过SVG中的文字是
以文字来表示,图形中的文字也可以当作查询的资料.影像资料的查询的范围由
此,可以扩充的更大.对於查询的准确度应有较好的提升.
下面是一个SVG档案的架构 :
我们描述的图形要摆在 这个标签 (tag)中,每一个图形都有一个自己的
标签,因此,整张范例图形就是由许多的图形标签所构成.图形标签中属性值的
意义如下 :
32
lrect : 描述正方形,长方形
nx, y : 四方形的左上角顶点的位置.
nwidth, height : 四方形的长与宽.
nstyle : 四方形的颜色.
ntransform : 四方形旋转的角度.
lcircle :描述圆形
ncx, cy : 圆心的位置.
nr : 图的半径.
nstyle : 圆形的颜色.
lellipse :描述椭圆形
nrx, ry : 椭圆中心的位置.
nrx, ry : 椭图长轴与短轴的长度.
nstyle : 椭圆的颜色.
ntransform : 椭圆旋转的角度.
lpolygon: 描述三角形,梯形
nstyle : 三角形,梯形的颜色.
npoints : 三角形,梯形的各个顶点.
ntransform :三角形,梯形旋转的角度.
正方形与长方形的标签是一样的,因为rect中的长与宽相等就是正方形,反
之就是长方形.polygon 是描述多边形的标签,利用points中的座标点描述图形
的各个顶点.三个座标点就是三角形的三个顶点,四个座标点就是梯形的四个顶
点.我们的系统对於所有经由图形控制命令所产生的图形,最后都是以SVG的
格式来储存,只要了解SVG格式,并且能够剖析XML档案,就能取得我们的
图形.
33
我们上一节所产生的范例图形的svg档案如下:
由这个SVG档案,我们可以明显地看出我们的范例图形有四个四方形,六个圆
形.整个SVG档案架构是非常简单而易於了解的.
34
3.4.3 资料库查询资讯的标准化格式
因为我们的影像资料库有许多种,资料库查询资讯也要如同范例图形一般,
用一个通用的方式来描述它.我们使用XML来描述资料库查询资讯,将每一个
资料库的资讯存在不同的标签中,利用不同的标签名称,来区分不同的资料库查
询资讯.
资料库查询资讯,我们可以用XML档案中标签的属性(attribute) 来描述资
料库查询资讯,或是在XML档案中建立标签的子标签,利用这些子标签来描述
资料库查询资讯.
我们将资料库查询资讯建成一个XML档案,放在这个标签中,
利用 中的子标签来描述资料库查询资讯,每一个资讯的资料就放在
每一个子标签的属性栏位中,底下是我们资讯表示法的架构 :
其中各个标签的意义如下 :
35
lRandom : 设定影像资料库是否作随机查询.
nFlag : true 则作随机查询.
: false 则不作随机查询.
lKeyword : 设定影像资料库是否作关键字查询.
nflag : true 则作关键字查询.
: false 则不作关键字查询.
nkeyword : 使用者输入的关键字.
lText : 设定影像资料库是否作文字查询.
nflag : true 则作文字查询.
: false 则不作文字查询.
lColor : 设定影像资料库是否作颜色特性查询.
nflag : true 则作颜色特性查询.
: false 则不作颜色特性查询.
nweight : 颜色特性在查询中所占的权重.
lTexture : 设定影像资料库是否作材质特性查询.
nflag : true 则作材质特性查询.
: false 则不作材质特性查询.
nweight : 材质特性在查询中所占的权重.
lShape : 设定影像资料库是否作形状特性查询.
nflag : true 则作形状特性查询.
: false 则不作形状特性查询.
nweight : 形状特性在查询中所占的权重.
lFileNoLimit : 设定查询回传的档案数目.
nno : 查询回传的档案数目.
lSampleFileName : 设定查询时范例图形的档案名称.
nname: 范例图形的档案名称.
36
一个要作随机查询,查询回传的数目是5,的资料库查询资讯XML档案如
下:
37
3.5查询产生器
有了描述范例图形和资料库查询资讯的通用档案,针对不同的影像资料库,
我们必须产生适合的查询,这样才能得到正确的查询结果.查询产生器利用XSLT
档案,能根据不同资料库的查询条件,来产生合适的XML查询档案,只要剖析
这个XML档案,我们就可以得到查询.这样的设计,使得增删影像资料库至系
统中,只要增删查询产生器就可以完成.
3.5.1 资料库查询资讯转换方式
我们将资料库查询资讯用XML来表示,这样资料库查询资讯就成为一个公
开的文件,只要提供不同的XSLT档案,就可以达成不同的转换.因此,对於同
一份的资料库查询资讯,我们利用不同的XSLT档案,就可以产生不同的资料库
查询.
XSLT 可以将XML转换成任何形式,我们要利用同一份资料库查询资讯来
向不同的影像资料库作查询,我们需要准备不同的XSLT档案,来将资料库查询
资讯转换成合适的查询.资料库查询资讯是用XML所描述的,如果有新的影像
资料库要加入系统,只要提供一个XSLT档案,就能正确无误地将资料库查询资
讯转换成影像资料查询.
现在影像搜寻的研究大都只是实验阶段,还很少有可以实际应用的系统出
现.市面上有一些商业化的影搜寻软体已经出现,但是价格非常的昂贵,所以我
们目前只使用QBIC这一套影像资料库.QBIC提供了完整的API和良好的说明
文件,而且支援大部份的影搜寻演算法,我们认为这是一个很完整的影像资料库
系统,将来如果有新的影像资料库系统出现,我们也可以制作不同的XSLT档
案,来得到合适的查询.以下是QBIC资料库的XSLT档案:
38
-r
-T
-f QbTextFeatureClass
-f QbColorHistogramFeatureClass
0]">
:w=.
39
-f QbTextureFeatureClass
0]">
:w=.
-f QbDrawFeatureClass
0]">
:w=.
40
-i
-n
41
资料库查询资讯XML档案经过XSLT的转换,我们可以得到一个QBIC 查
询的XML档案,我们只要将这XML档案剖析出来,就可以得到QBIC查询.
如果我们将上一节的随机查询的资料库档案配合这一节的XSLT档案则我们将
会得到一个QBIC 查询的XML档案 :
-r
-n 5
我们只要将这XML档案剖析出来,配合QBIC的命令格式,就可以得到QBIC
查询
3.6影像资料库
现在支援影像查询的资料库愈来愈多,只要有提供API的影像资料库,皆可
纳入我们的系统中.对於不同的影像资料库,我们只要提供一个查询产生器即
可.对於新的影像资料库,我们也不用修改系统,就可以支援.
3.7查询结果整理
由於我们支援的影像资料库可以不只有一个,因此我们必须对查询回来的资
料作一些整理,才能将结果交由查询结果显示介面显示.
3.8查询结果显示介面
影像资料库传回的资料,不外乎文字与影像资料,要适当地显示传回的资
料,使用者才能选出需要的资讯.
42
3.9 系统特色
我们提出一个利用语音撷取影像资料库的模组化架构.整个架构包括 : 语
音辨识介面,图形查询引擎,影像资料库,查询结果整理和显示介面.利用这个
模组化架构,我们是希望可以方便的使用各种不同的语音辨识模组,或是影像搜
寻模组,而且是使用市面上可以找到的商业模组,或免费模组来使用.
我们定义了一套图形描述与查询控制语言,将语音辨识系统独立出来.结合
语音辨识可以将使用者的口语转换成系统可以了解的命令.利用图形描述与查询
控制语言,可以利用口语描述抽象化图形,当作影像查询的范例图形.
我们将系统中的资料库查询资讯用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在与其他的系统结合时,资讯交换
变得很容易.这样系统可以与不同的影像资料库结合
43
第四章系统实作
我们实作了一个利用语音介面来撷取影像资料库的系统.系统中大部份的模
组,是使用市面上可以找到的商业模组,或免费模组来使用.我们是希望能够提
出一个非常有弹性的架构,可以方便的使用各种不同的语音辨识模组,或是影像
搜寻模组,来完成这个系统.以下是系统实作部份的介绍:
4.1 系统发展环境
我们的系统发展环境是在个人电脑上,使用JAVA语言来实作.电脑的cpu
是 Pentium II 300,有128Mbytes 的记忆体.软体发展是利用Jbuilder 3.0 在JDK
1.2上发展程式.为了剖析XML档案,我们使用Sun Microsystems, Inc.的JAXP
(Java API for XML Parsing) 1.0.1 package [43].我们同时还利用 APACHE 的
Xalan 1.0.1 来作XSLT的转换[39].语音辨识介面是利用声硕科技的「说亦通」
中文听写系统[47].影像资料搜寻引擎是采用IBM 的QBIC系统[41].
我们目前有三种影像资料库,花卉图形资料库有88张图片,史奴比图形资
料库有98张图片,猫图形资料库有40张的图片,其中花卉图形资料库有文字资
料,可以作关键字查询.
我们的系统已经确实可以将所有的模组全部组合起来,让使用者透过语音介
面来撷取影像资料库,并且将我们的理论实作出来.
4.2 系统执行流程
使用者一进入系统时,必须先选择范例图形.使用者可自行利用基本图形,
如正方形,长方形,圆形等等,来组合出范例图形.或选择一些已经存在的样板
图形,来加快范例图形的建置.所有建置的过程皆可用语音命令来控制,只要用
口语输入图形物件控制命令就可以完成建置.
44
范例图形建立好之后,使用者要设定资料库查询条件,使用者可以设定查询
的方式,如 : 随机查询,关键字查询,文字查询,图形特性查询,和查询的条
件,如 : 范例图形的档案名称,查询结果的回传数目,或是各个图形可见特性
在查询时的权重(weight),和影像资料库的类别.这些设定非常重要,因为查询
条件若设定不佳,查询的效果将非常不好.
使用者设定好资料查询条件,便可以查询影像资料库,系统要查询影像资料
库之前,有一些事情必须完成.系统必须先将SVG所描述的图形档案转换成影
像资料库可以接受的影像档案格式.再将资料库查询条件利用XSLT档案来产生
合适的查询.
系统最后将查询的结果显示出来,让使用者决定是否已找到心中所想要的图
形.若使用者找到所想要的图形,则完成此次的查询,若没找到,使用者可选择
任何一张图形,更改资料库查询条件,再重新查询,直到找到使用者心中所想要
的图形为止.
4.3 系统功能说明
我们实作的系统,是依照我们的理论架构来完成的.底下我们将介绍整个系
统功能 :
首先是系统的主画面 (如图 4-1 )
45
图4-1,系统主画面
l范例图形产生介面 : 供使用者用建置范例图形.
n语音输入栏位 : 供使用者输入语音命令.
n形状 : 显示使用者目前所选择图形物件的形状.
n颜色 : 显示使用者目前所选择图形物件的颜色.
n位置 : 显示使用者目前所选择图形物件的位置.
n大小 : 显示使用者目前所选择图形物件的尺寸.
n关键字 : 供使用者输入作关键字查询之关键字.
语音输入栏位可输入所有的图形描述与查询控制语言,若要设定资料库查询
资讯,使用者必须输入"资料库设定",则资料库查询资讯的视窗将出现(如图4-2)
46
图4-2,资料库查询资讯设定画面
同样的,设定资料库查询资讯的语音命令也是由语音输入的栏位进入,只要
使用者输入各个栏位中的文字,即可设定资料库查询资讯.
若使用者要设定图形物件的特性,只要输入范例图形产生介面中各个栏位中
的文字即可.输入"形状"即可选择形状(如图4-3),输入"颜色"即可选择颜色(如
图4-4),输入"位置"即可选择位置(如图4-5),输入"大小"即可选择尺寸(如图
4-6).输入"范例图形"即可选择范例图形(如图4-7).
47
图4-3,图形物件形状设定画面
图4-4,图形物件颜色设定画面
48
图4-5,图形物件位置设定画面
图4-6,图形物件尺寸设定画面
图 4-7,范例图形设定画面
49
l范例图形的区域是用来绘制使用者所描述的范例图形(如图4-8).
图4-7,范例图形绘制画面
50
搜寻范例的区域是显示使用者所选之范例图形的缩图(thumbnail).
l搜寻结果的区域是用来显示查询的结果,将查询结果用缩图的方式显示出
来.(如图4-8)使用者并可点选任何一张搜寻结果区域中的图形当作下一次
查询的范例图形.
图4-8,搜寻结果画面
51
第五章系统效能分析
我们在第三章提过一般的影像搜寻演算法,都是利用随机产生一些范例图形
让使用者选择,然后利用所选择的范例图形来作影像资料搜寻.我们的方法是希
望使用者将心目中所想要的影像资料,先抽象化的描述出来,利用描述出来的抽
象化图形当作范例图形来作影像资料搜寻.我们认为会有比较高的准确度.底下
就是我们所作的实验 :
5.1 抽象化图形的搜寻准确度
我们想了解针对不同的影像资料库,利用抽象化图形作影像资料搜寻的准确
度.实验方法如下 :
我们针对三种资料库各取出一张图形作为目标图形,然后对每一张目标图形
做抽象化描述,利用这三张抽象化图形来作影像资料搜寻.
我们对於每一张的抽象化图形都作颜色特性,材质特性,形状特性,颜色和
材质特性(各占50 %),颜色特性和材质特性(各占50 %),材质和形状特性(各占
30 %),整合特性(颜色,材质,形状各占33 %)的查询.然后观察找到目标图形
所需之回传张数,如果抽象化图形与目标图形很相似,找到目标图形所需之回传
张数就很少,反之则很多.
我们实验数据图表的横轴是查询特性,纵轴是找到目标图形所需之回传张
数.因此,柱状图愈短的,代表抽象化图形与目标图形愈相似.
底下为三个资料库的实验数据 :
52
l花卉图形资料库 :
花卉图形资料库的抽象化图形与目标图形(如图5-1),测试结果(如图5-2)如
下所示.由结果我们可以发现利用形状特性和整合特性的查询,我们都可以正确
无误地找到目标图形.
(a) 抽象化图形(b) 目标图形
图5-1,花卉图形资料库的抽象化图形与目标图形
02468101214
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-2,花卉图形资料库抽象化图形之特性查询结果
53
l史奴比图形资料库 :
史奴比图形资料库的抽象化图形与目标图形(如图5-3),测试结果(如图5-4)
如下所示.由结果我们可以发现利用形状特性和整合特性的查询,我们都可以正
确无误地找到目标图形.
(a)抽象化图形(b) 目标图形
图5-3,史奴比图形资料库的抽象化图形与目标图形
02468101214
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-4,史奴比图形资料库的抽象化图形之特性查询结果
54
l猫图形资料库 :
猫图形资料库的抽象化图形与目标图形(如图5-5),和测试结果(如图5-6)如
下所示.由结果中我们可以发现利用颜色特性和形状特性的查询,我们都可以正
确无误地找到目标图形.
(a)抽象化图形(b) 目标图形
图5-5,猫图形资料库的抽象化图形与目标图形
0246810121416
颜色材质形状颜色+材质颜色+形状材质+颜色整合特性
查询特性
找到目标图形所需之回传张数
图5-6,猫图形资料库的抽象化图形之特性查询结果
55
5.2 搜寻时间分析
由上一节的实验结果我们可以看出利用抽象化图形查询的效果不错,有好几
种特性查询都可以找出目标档案,因此准确度不错.系统中另一个大家会注意的
地方就是速度.我们在第四章有提过,我们所有的资料都是以通用的形式来表
示.这表示我们需要一些额外的时间去作资料转换的工作.我们希望资料转换的
负担愈小愈好.
在我们的系统架构之下,我们可以得出
影像资料搜寻时间 = 资料转换时间 + 资料库搜寻时间
资料库搜寻时间可以视为常数,假设我们的影像搜寻引擎不变,因此我们只
要得出资料转换时间,就可知道系统的效率如何.实验方式为对三个影像资料库
都作颜色特性查询,我们取50次查询的时间来作平均.结果如图5-7.
由结果可以看出资料转换的时间大约占10 %影像资料搜寻时间.我们认为
这样的负担应该是可以接受的.
05001000150020002500
花卉史奴比猫
图形资料库
影像资料搜寻时间 (ms)
资料转换资料库搜寻
图5-7,系统搜寻时间分析
56
5.3随机查询之查询次数分析
从5 1 和 5 2 我们可以发现抽象化图形查询有不错的效果,而且额外的
负担也不是很大.那随机查询的效能如何,是否真的会很差,亦或效能不会差太
多.若随机查询的效能不错,我们是否需花这麼大的工夫,提供一个让使用者描
述抽象化图形的方式.随机查询的查询次数对我们来说是非常重要的比较数据.
使用者在作随机查询的时候,有两种方式可以选择 :
1.每一次作完随机查询,都检查传回的结果中是否有目标图形,如果没有就继
续作随机查询,有的话就结束查询.
2.每一次作完随机查询,都可以选择结果中的某一个图形作特性查询,也可以
继续作随机查询.如果使用者选择了正确的特性查询就会加快搜寻的速度,
但是如果选择了错误的特性查询,搜寻方向将会偏移,反而造成搜寻时间的
增加.因此,选择正确的特性查询是非常重要的.
第一种方式对於我们作实验是很直觉的,就是对於每一次随机查询的结果都
检查是否含有目标图形,如果没有就继续作随机查询,有的话就结束查询.
第二种方式对於我们作实验是有一些困难的.因为使用者判断某一个结果是
否可以作特性查询是一件非常主观的事,并没有什麼标准可以衡量.这样的处理
方式,使得我们无法用程式来模拟.为了克服这个问题,我们将第二种方式作了
少许的修改.
我们在每次作随机查询之前,我们先将目标图形作一次特性查询,经过查询
之后,我们可以得到一个与目标档案有相似特性的相似图形群组,在随机查询后
我们检查结果中是否有图形落在相似图形群组中.如果没有任何图形落在相似图
形群组中,就继续作随机查询;如果有图形落在相似图形群组中,就表示结果中
有某一些图形经过特性查询可以得到目标图形,这样就结束查询.我们是模拟使
用者每一次都能判断出结果中是否有图形和目标图形有相似的特性,并且都能选
择正确的特性查询.也就是模拟最佳情况.
57
5.3.1 针对目标图形的随机搜寻
针对目标图形的随机搜寻在实验的设计上,就如前面所提是非常直接的.我
们对不同结果的数目作了一些实验,希望了解查询回传张数和找到目标图形之查
询次数的关系.测试结果(如图5-8)中横轴是查询回传张数,纵轴是找到目标图
形之查询次数.
由图表中我们可以看出查询回传张数愈多,找到目标图形之查询次数就愈
少,因为查询回传张数愈多,代表找到目标档案的机会愈高.
010203040506070
1234567891011121314151617181920
查询回传张数
找到目标图形之查询次数
花卉图形资料库史奴比图形资料库猫图形资料库
图5-8,针对目标图形的随机搜寻之查询次数分析
58
5.3.2针对相似图形群组的随机搜寻
由5 3的说明中,我们知道针对相似图形群组的随机搜寻的变数有两个,
一是相似图形群组的大小,二是查询回传张数的大小.
我们根据这样的情形设计了两种实验 : 一是相似图形群组为3,查询回传张
数由 1到 20,二是相似图形群组为10,查询回传张数由 1到 20.我们对於目
标图形作颜色特性,材质特性,形状特性,颜色和材质特性(各占50 %),颜色特
性和材质特性(各占50 %),材质和形状特性(各占30 %),整合特性(颜色,材质,
形状各占33 %)的特性分析,来取得相似图形群组.测试结果如图5-9 , 图 5-10 ,
图5-11,图 5-12,图 5-13 ,图 5-14.
由结果我们可以发现相似图形群组的数目愈多,找到目标图形之查询次数就
愈少,因为相似图形群组的图形数目愈多,回传结果落到相似图形群组的机会就
提高.
查询回传张数愈多,找到目标图形之查询次数就愈少,因为查询回传张数愈
多,代表传回的结果落到相似图形群组的机会就愈高,这是跟针对目标图形的随
机搜寻的结果一样的.
59
花卉图形资料库
相似图形群组数目3
0246810121416
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-9,针对相似图形群组的随机搜寻之查询次数分析
(花卉图形资料库,相似图形群组数目3)
花卉图形资料库
相似图形群组数目10
00.511.522.533.544.5
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-10,针对相似图形群组的随机搜寻之查询次数分析
(花卉图形资料库,相似图形群组数目10)
60
史奴比图形资料库
相似图形群组数目3
0510152025303540
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-11,针对相似图形群组的随机搜寻之查询次数分析
(史奴比图形资料库,相似图形群组数目3)
史奴比图形资料库
相似图形群组数目10
012345678910
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-12,针对相似图形群组的随机搜寻之查询次数分析
(史奴比图形资料库,相似图形群组数目10)
61
.猫图形资料库
相似图形群组数目3
0510152025303540
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-13,针对相似图形群组的随机搜寻之查询次数分析
(猫图形资料库,相似图形群组数目3)
猫图形资料库
相似图形群组数目10
024681012
1234567891011121314151617181920
查询回传张数
找到相似图形的查询次数
颜色特性
材质特性
形状特性
整合特性
图5-14,针对相似图形群组的随机搜寻之查询次数分析
(猫图形资料库,相似图形群组数目10)
62
5.3.3抽象化图形与随机相似图形查询之比较
我们前面已经有了抽象化图形与随机相似图形的查询效能分析,现在我们将
两个结果合并起来作一个比较.我们利用颜色特性,材质特性,形状特性,整合
特性(颜色,材质,形状各占33 %)的特性查询来作比较.随机搜寻的相似图形群
组大小是三个.结果如图5-15,5-16,5-17.
利用抽象化图形来查询比随机相似图形查询有较少的回传张数.抽象化图形
是由使用者所描述的,有时无法将目标图形的特性完全描述出来,因此有些特性
查询的结果会比随机查询来的差,这个情况我们可以从图5-15的颜色特性查询
中看出来.我们使用抽象化图形来作查询时的范例图形,一般而言,以形状特性
来查询可以得到很好的效果.在三个结果图形中,我们可以看到这个现象.
花卉图形资料库
02468101214
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-15,抽象化图形与随机相似图形的查询效能比较
(花卉图形资料库,相似图形群组数目3)
63
史奴比图形资料库
024681012141618
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-16,抽象化图形与随机相似图形的查询效能比较
(史奴比图形资料库,相似图形群组数目3)
猫图形资料库
024681012141618
颜色特性材质特性形状特性整合特性
查询特性
找到目标图形所需之回传张数
抽象化图形
随机相似图形
图5-17,抽象化图形与随机相似图形的查询效能比较
(猫图形资料库,相似图形群组数目3)
64
5.4 使用者查询方法之比较
我们前面都是利用程式模拟使用者行为,量测数据.这一些资料比较客观,
较为人所接受.但是,我们的系统最后面对的还是使用者,让使用者实际利用我
们的系统来作影像资料搜寻,测试结果如图5-18.
由结果我们可以知道,随机查询对於使用者来说仍是一件很困难的事.因为
使用者必须选择合适的特性查询方法,才能找到目标图形.一般的使用者很难去
了解什麼图形该用什麼持性查询.抽象化图形对於使用者来说是比较自然的方
法,只要描述的不要太差,查询次数应该不会太多.
02468101214161820
花卉抽象化图形
史奴比抽象化图形
猫抽象化图形花卉随机查询
史奴比随机查询
猫随机查询
找到目标图形之查询次数
专家一般使用者
图5-18,使用者查询方法之比较
65
5.5 查询时间与资料库数量之关系
我们建立了一个一千张图形的资料库,这里面有不同种种类的图形.我们在
5 2 节中有测试三个资料库的查询时间,因为这三个资料库的图形数目都很少,
因此,我们重新建立了一个有比较多图形的资料库,希望能测试出查询时间与资
料库数量的关系.
这一个实验,我们将资料库数目以100的数目增加,都作颜色特性,材质特
性,形状特性,颜色和材质特性(各占50 %),颜色特性和材质特性(各占50 %),
材质和形状特性(各占30 %),整合特性(颜色,材质,形状各占33 %).然后量测
查资料库搜寻时间.测试结果如图5-19,5-20,5-21,5-22 :
0200400600800100012001400160018002000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-19,查询时间与资料库大小之关系-利用颜色特性搜寻
66
020040060080010001200140016001800
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-20,查询时间与资料库大小之关系-利用材质特性搜寻
0200400600800100012001400160018002000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-21,查询时间与资料库大小之关系-利用形状特性搜寻
67
050010001500200025003000
1002003004005006007008009001000
资料库之图形总数(张)
影像资料库搜寻时间(ms)
资料转换资料库搜寻
图5-22,查询时间与资料库大小之关系-利用综合特性搜寻
由结果可以观察出,颜色和材质特性查询的查询时间在一千张的图形数目下
几乎没有改变.而形状和综合特性查询的查询时间就随著资料库数目的增加而线
性增加.
不管使用何查询方式,我们的资料转换时间始终维持一个固定的时间.也都
占整个影像资料库查询时间的10%左右.
68
第六章结论与未来展望
无线网路的快速发展,提供了更有效率的沟通方式.如何在无线环境中,提
供快速方便的资讯服务,是一个值得研究的课题.我们提出一个架构让使用者可
以克服无线连线设备的操作不便性,轻易的由语音透过无线网路来撷取影像资料
库.我们将架构模组化,让这个架构具有弹性和扩充性,可以适用不同的语音辨
识介面,并支援多种的影像资料库.
6.1 结论
我们在这篇论文中提出一个让使用者利用语音撷取影像资料库的模组化架
构.整个架构包括 : 语音辨识介面,图形查询引擎,影像资料库,查询整理与
显示介面.为了增加架构的实用性,我们的语音辨识介面,影像资料库都是采用
现有的系统.我们利用图形描述与查询控制语言,和资料的标准化格式,使得我
们的系统可以和各种不同的语音辨识介面和影像资料库搭配使用.
我们利用抽象化图形来当作影像查询的范例图形,这样可以得到非常好的效
果.为了让使用者可以方便地描述范例图形,我们提供两种方法给使用者 : 一
是基本形状,二是样版图形.利用使用者描述出来的范例图形,可以得到非常好
的查询效果.
我们将系统中的影像资料库资料用XML来描述,范例图形用SVG来 表 示,
使我们的系统资讯都是标准化的.我们的系统在跟其他系统结合时,资讯的交换
变得很容易.对於我们想要使系统能够很轻易地与其他的系统结合,除了结构化
的架构,资讯的标准化也是一件很重要因素.
69
6.2 问题与讨论
l语音辨识介面易受噪音(noise)干扰.
在我们系统测试的过程中,发觉语音辨识介面非常容易受到噪音的干扰.噪
音在无线环境中是无可避免的,因此提高语音辨识介面的抗杂讯能力是一件
克不容缓的事.
l语音辨识介面与其它程式介面的结合有不方便之处.
我们所采用的说亦通语音辨识介面将转换出来的语音字串,先存进剪贴簿
中,然后当使用者确定这一串语音字串是正确,语音辨识介面再将剪贴簿中
的字串拷贝出来.这样对一些文书处理软体是没有问题,但对於某些输入视
窗是有问题的.我们认为语音介面如果能够模拟成一般的中文输入法,这样
的相容性麼该会比较好.
l抽象化图形无法轻易地完全描述目标图形.
由於图形的复杂程度不同,特性也不同.图形如果是比较单纯的,比较容易
描述,例如,漫画人物,几何图案所构成的图形.复杂的图形有时用笔画是
比较容易的.因此我们认为要让使用者有较佳的描述方式,可以将手绘图形
的方式也加进来.
70
6.3 未来展望
我们的系统已经可以令使用者经由语音来撷取影像资料库,这只是一个起
步,我们觉得系统在未来可以加入下列功能,使系统更便利 :
l结合自然语言处理 :
我们现在只有简单的图形描述与查询控制语言可让使用者使用.未来结合自
然语言处理,我们就可以让使用者的语音输入可以更自然,这样所能描述的
资讯会较丰富,可以作较复杂的搜寻.
l建立观念性的样板元件 :
我们提供的样板元件是我们事先制作好的一些较复杂的抽象图形.观念性的
样板元件是指一些有意义的影像资料,如海洋,青草地,高山等等.有了这
些元件,我们建立范例例图形时就可以更方便,更符合使用者心中所想.
l结合语音合成的技术.
我们实作的系统,有些时候仍需要使用键盘,未来如果加入语音合成技术,
系统的互动性将变的更好.
71
参考文献
[1]Y.A. Aslandogan, and C. Their, et al. Design, Implementation, and Evaluation of SCORE
(A System for Content Based Retrieval of Pictures). Proc. IEEE ICDE, pp. 280-287, Mar.
1995.
[2]Y.A. Aslandogan, and C. Their, et al. Using Semantic Contents and WordNet in Image
Retrieval. Proc. ACM SIGIR Conf., 1997.
[3]Y.A. Aslandogan, and C.T. Yu.Techniques and systems for image and video retrieval. IEEE
Transactions onKnowledge and Data Engineering,Vol. 11, no. 1, pp. 56-63,
January/February, 1999.
[4]Daniel Barbara, Mobile Computing and Databases - A survey. IEEE Transaction on
Knowledge and Data Engineering, Vol. 11, no. 1, pp. 108-117, January/February, 1999.
[5]A.P. Berman, L.G. Shapiro. Efficient content-based retrieval: experimental results.
Proceedings. IEEE Workshop on Content-Based Access of Image and Video Libraries,
(CBAIVL '99), pp. 55- 61, 1999.
[6]Bert Bos. XML in 10 points. Available at: http://www.w3.org/XML/1999/ML-in-10-points
[7]Jon Bosak. XML:The Universal Publishing Format. Sun Microsystem Inc, 1998. Available
at: http://www.gca.org/conf/paris98/bosak/sld00000.htm
[8]John Bowler, et al. Scalable Vector Images (SVG) 1.0 Specification. W3C Working Draft 03
March 2000. Available at: http://www.w3.org/TR/SVG/
[9]Dan Connolly. Extensible Markup Language (XML). W3C (MIT, INRIA, Keio), 1999.
Available at: http://www.w3.org/XML/
[10]J.M. Corridoni, and A.D. Bimbo, et al. A Visual Language for Color-Based Painting
Retrieval. Proc. Int'l Symp. Visual Languages, pp. 68 - 75, 1996.
[11]R.A. Dayem. Mobile Data and Wireless LAN Technologies. Prentice Hall, Upper Saddle River,
72
NJ 07458.
[12]Angel Diaz. Mathematical Markup Language (MathML). W3C (MIT, INRIA, Keio), 1999.
Available at: http://www.w3.org/Math/
[13]Dan Duchamp. Issues in Wireless Mobile computing Computer Science Department,
Columbia University, 1992.
[14]M.J. Egenhofer. What's Special About spatial Database Requirements for Vehicle
Navigation in Geoimage Space. Proc. ACM SIGMOND, pp. 398-402, 1993.
[15]C. Faloutsus, and R. Barber, et al. Efficient and Effective Querying By Image Content.J.
Intelligent Information Systems, vol. 3, no. 1, pp. 231-262, 1994.
[16]C. Faloutsos, M. Flickner, et al. efficient and Effective Querying by Image Content.
Research Report, No. 9453, IBM Almaden Research Center, 1993.
[17]M. Flickner, and H.S. Sawhney, et al. Query by image and video content: the QBIC system.
IEEE Computers, Vol. 28, No. 9, pp. 23-32, 1995.
[18]Bill Gates, Nathan Myhrvold, and Peter Rinearson. 拥抱未来(The Road Ahead).远流出
版事业股份有限公司, 1996.
[19]Y. Gong, and H. Zhang, et al. An Image Database System with Content Capturing and Fast
Image Indexing Abilities. Proc. Int'l Conf. Multimedia Computing and Systems, pp. 121-130,
May, 1994.
[20]V. Haarslev, and M. Wessel. Querying GIS With Animated Spatial Sketches. Proc. Int'l
Symp. Visual Languages, pp. 201-208, 1997.
[21]W. Hsu, T.S. Chua, and H.K. Pung, An Integrated Color-Spatial Approach to
Content-Based image Retrieval. Proc. ACM Multimedia conf., pp. 305-313, 1995
[22]Tad Lane. Scalable Vector Images Web Images with Original Quality Art work.
Information Architecture Standards Editor, CIC-1 Communication Arts and Services.
Available at: http://www.lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html
[23]W.-S. Li, K.S. Candan, et al. SEMCOG : An Object-Based Image Retrieval System and its
73
Visual Query Interface. Proc. ACM SIGMOND, pp. 521-524, June. 1997
[24]Chris Lilley. Scalable Vector Images (SVG). W3C (MIT, INRIA, Keio), 2000. Available at:
http://www.w3.org/Images/SVG/Overview.htm8
[25]Chris Lilley, and Vincent Quint. Extensible Stylesheet Language (XSL). W3C (MIT, INRIA,
Keio),2000. Available at: http://www.w3.org/Style/XSL/
[26]B. Meyer. Pictorial Deduction in Spatial Information Systems. Proc. Int'l Symp. Visual
Languages, pp. 23 - 30, 1994
[27]Thierry Michel.Synchronized Multimedia Integration Language (SMIL). W3C (MIT,
INRIA, Keio), 1999. Available at: http://www.w3.org/AudioVideo/#Specificat
[28]W. Niblack, and R. Barber, et al. The QBIC project: querying images by content using color,
texture, and shape. Research Report, No. 9203, IBM Almaden Research Center, 1993.
[29]William J. Pardi. XML in Action. Microsoft Press, 1999. Available at:
http://msdn.microsoft.com/xml/default.asp
[30]M. Satyanarayanan. Fundamental Challenges in Mobile Computing. School of Computer
Science, Carnegie Mellon University, 1996
[31]A.F. Smeaton and I. Qiggley. Experiments on Using semantic Distances between Words in
Image Caption retrieval. Proc. ACM SIGIR Conf., 1996
[32]J.R. Smith and S.F. Cahng. VisualSEEk : A Fully Automated Content-Based Image Query
System. Proc. ACM Multimedia conf., Boston, pp. 87-98, 1996
[33]Ralph Swick, and Eric Miller. Resource Description Framework (RDF). W3C (MIT, INRIA,
Keio), 2000. Available at: http://www.w3.org/RDF/
[34]F. Tomita, and T. Saburo. Computer Analysis of Visual Textures. Kluwer, 1990
[35]Daniel Veillard, and Dan Connolly. XML Linking Language (XLink). W3C (MIT, INRIA,
Keio),2000. Available at: http://www.w3.org/XML/Linking.html
[36]E.M. Voorhees. Using WordNet to Disambiguate Word Senses for Text Retrieval. Proc.
ACM SIGIR Conf., pp. 12-25, 1995
74
[37]A. Yoshitaka, and T. Ichikawa. A survey on content-based retrieval for multimedia
databases.IEEE Transactions on Knowledge and Data Engineering,Vol. 11, no. 1, pp. 81-93
January/February, 1999.
[38]C.T. Yu and W. Meng. Principles of Databases Query Processing for Advanced Applications.
Data Management Systems, Morgan Kaufman, 1998
[39]Apache, Xalan Overview. Available at: http://xml.apache.org/xalan/overview.html
[40]IBM,「Via Voice快乐颂」. Available at: http://www.acertwp.com.tw/viavoice/function.htm
[41]IBM, IBM's Query By Image Content. Available at: http://wwwqbic.almaden.ibm.com/
[42]International Standards Organization, ISO 8879, Information Processing - Text and Office
Systems - Standard Generalized Markup Language (SGML)
[43]Sun Microsystems, Inc. XML and Java technologies. Available at: http://java.sun.com/xml/
[44]W3C, Extensible Markup Language (XML) 1.0, W3C Recommendation 10-February- 1998,
Available at: http://www.w3.org/TR/REC-xml
[45]张照煌. 语音辨识技术应用之发展趋势.Computing Center Newsletter计算中心通讯,第14
卷07期,87年03月30日.
[46]廖弘源.以影像内涵为搜寻基础的台湾鱼类查询系统.中央研究院资讯科学研究所,
Available at: http://smart.iis.sinica.edu.tw/~fish/cindex.html
[47]声硕科技. 说亦通2000特色. Available at: http://www.speech.com.tw/product1.htm.
·上一篇:11预先检查
·下一篇:ATSE的选用方法

文件类型:PDF/Adobe Acrobat 文件大小:字节