由于学术研究的需要,笔者近半个月广泛阅读了10多篇关于军地感应的论文,因此对军地认知式的概念进行了总体框架分析,希望在普及理论知识的同时,与大家一起学习进步。
移动集团智能识别最早是在2011年发表在IEEE上的文章《Mobile crowdsensing: current state and future challenges》中由Raghu K. Ganti提出的。之后,2012年,清华大学刘云浩教授发表文章《群智感知计算》,在国内首次解释了集团智能识别(Crowd Sensing)。众包是指一家公司或机构以自由自愿的形式将过去员工执行的业务任务外包给非特定的大众志愿者的方式。通俗地说,众筹是在网络上向社会大众分配工作,共同参与的社会生产模式。在这种分布式协作模式下,解决问题的人员从一人增加到多人,这种挨家挨户收藏的形式可以进一步发挥问题本身的价值。所谓的“人们拾柴烈火”嘛。刘云浩教授融合了众筹和认识这两个概念,提出了立足于物联网的新概念——军的智能认识。
集团智能识别是指将众包思维与移动设备识别功能相结合的新数据收集模型。详细内容是指大型最终用户通过自己携带的智能移动设备收集识别数据并上传到服务器。服务提供商记录和处理识别数据。最终完成识别任务并使用收集的数据为用户提供日常服务的过程。近年来,随着智能手机、手表手镯、平板电脑、联网汽车等多种移动设备和可穿戴设备的普及,加速度计、陀螺仪、相机、指南针、GPS、麦克风、车载电话等内置传感器的存在逐渐受到企业的重视。传统的传感器识别网络在面临大规模识别任务时,需要安装大量的专业检测设备,因此维护成本高,应用范围有限,导致识别任务的完成效果和效率大大降低。与传统的识别网络不同,群体智能识别网络利用许多普通用户手设备的单个识别设备收集数据。这种方式由于移动设备的普遍性和用户位置移动的灵活性,完美地解决了电子的问题,互联网的发展进一步加快了群体智能识别的研究和应用。今天,军地监测已经在环境污染监测、环境噪声地图、城市交通道路、社交网络、医疗服务等方面得到应用,在可预见的未来,将应用于更多的工作场景。
集团智能识别框架图
上图是笔者对军地识别系统的结构分割图。根据感兴趣的因素,刘文斌博士将其分为移动组智能识别和稀疏组智能识别。其中,移动集团智能识别主要关注用户,强调使用移动用户广泛的存在性、灵活的移动性和机会连接来执行识别任务,也就是上面Raghu K. Ganti提到的概念的广泛化,即使用最终用户携带的智能设备上传识别数据。稀疏组智能识别更注重数据,通过挖掘和利用识别数据的时空关联,推断未识别区域的数据。
典型的移动群体智能识别系统一般由多个工作发起者、大量移动用户和云识别平台组成,在最近的学术研究中,一些学者开始结合区块链,最大限度地保护个人信息。作业发起者根据自己的需要向识别平台提交作业。识别平台向所有用户发布任务。移动用户通过使用智能设备执行操作和上传数据获得奖励。识别平台为任务发起者提供数据处理和计算服务。在整个过程中,数据、任务和用户是三个值得关注的关键点,因此笔者总结了数据收集、用户招募、任务分配、隐私、数据质量和激励等六个具体研究方向。
稀疏组智能识别会招募用户识别部分区域的数据,然后使用时空关联来估计其他未识别区域的数据,从而大大减少识别消耗,保证数据准确性。在物理世界里,收集到的大部分检测信息或数据都是连续的,比如温度、湿度、交通情况等,比如接受温度,帮助你理解:在同一个地方,连续两分钟的温度度非常接近,或者同时,在5米之外,两个温度度基本相同,这是时间和空间的连接。所以我们可以通过这里的气温,利用方圆5米左右的气温,也就是已知的数据,估算出未知的数据。但是,由于这样估计的数据的准确性存在问题,笔者总结了数据推理、识别领域选择、数据质量和激励机制四个具体的研究方向。
下面简单谈谈各方向的研究战略。
1.数据收集方式分为机会型集团智能识别和参与型集团智能识别。机会型群体智能识别是指识别平台直接或间接检测用户的行为,对用户的干扰较小,但数据准确性依赖于识别算法和应用环境,需要高度隐私保护机制来吸引用户的参与。参与型群体智能识别是指用户主动参与识别工作,数据准确度高,但容易受到用户主观意识的影响,恶意用户经常上传虚假数据,因此需要强大的数据质量评价机制。数据采集通常使用马尔可夫随机场建立数据关联结构模型,并通过互信息理论量化用户的个人信息丢失。
2.用户招聘一般会根据线下场景和在线场景、整个信息场景、部分信息场景、动态社会影响场景等多种场景的区分进行单独讨论。可以将其转化为图的加权最大截断问题来解决。
3.任用
务分配一般将其转化为二部图最大加权匹配问题进行解决,也可利用机器学习对用户类型进行预测,进而给合适用户分配合适任务。4. 隐私保护解决方案可分为匿名化、数据扰动和数据加密三种。匿名化一般使用k-匿名算法,简单理解就是在一个数据集中至少无法从k-1个数据中识别出某用户的隐私信息,即将一条数据隐藏于k-1条数据中进而无法区分;数据扰动即给数据添加噪声,一般使用差分隐私,即对查询的结果加入噪声变量,使得攻击者无法辨别某一样本是否在数据集中,一个形象的说法就是,双兔傍地走安能辨我是雄雌;数据加密一般使用AES、RSA等常用加密算法,或者使用签名+加密的签密算法。
5. 数据质量解决方案可分为真值发现、可信度和真值引出三种。真值发现是指通过对用户的感知数据进行估计,来挖掘真实可信的数据;可信度是指通过分析用户的历史数据,得出用户的可信程度,或通过感知数据中的异常点检测手段,剔除异常的感知数据,从而选取可信度较高的数据;真值引出是指通过机制设计的手段,将用户的数据质量作为影响用户激励的因素,结合对等预测等方式使得用户主动真实地上报其感知质量。
激励机制分类
6. 激励机制可划分为基于娱乐游戏的激励机制、基于信誉值的激励机制和基于报酬支付的激励机制,而基于报酬支付的激励机制又可划分为以平台为中心的模式和以用户为中心的模式。以平台为中心的模式是指平台给出报价,用户自行决定是否参与感知任务,分为基于时间的报酬支付、基于贡献值的报酬支付和基于数据质量的报酬支付,一般采用斯塔克伯格博弈(Stackelberg game)建模;以用户为中心的模式是指用户决定报价,由平台决定是否接受该价格,并挑选合适价格用户完成感知任务,分为离线和在线两种场景下的激励机制,一般采用反向拍卖(Reverse auction)建模,需要保证诚实性、个体理性和计算有效性。
7. 数据推断和感知区域选择两个方向的研究比较欠缺,笔者只看到了一两篇关于此方面研究的文章,论文作者采用压缩感知来设计数据推断算法,而对于感知区域选择则使用机器学习理论中的强化学习算法。
群智感知理论仅用上文这小小的篇幅无疑是讲不完的,这终归只是冰山一角,因此之后笔者会慢慢地将这个理论进行完善,感谢支持!
参考文献:
[1]王凯. 基于差分隐私的群智感知数据保护方法研究[D].南京邮电大学,2020.
[2]刘媛妮,李垚焬,李慧聪,李万林,张建辉,赵国锋.基于拍卖模型的移动群智感知网络激励机制[J].通信学报,2019,40(07):208-222.
[3]王静. 基于强化学习的群智感知激励机制研究[D].中国科学技术大学,2021.
[4]杜扬. 面向群智感知的数据收集与数据筛选技术研究[D].中国科学技术大学,2020.
[5]胡佳慧. 面向群智感知系统的个性化隐私保护研究[D].武汉大学,2019.
[6]倪凯敏. 面向群智感知系统的隐私保护增量真值发现算法研究[D].安徽大学,2020.
[7]王鑫. 面向任务需求的群智感知任务分配模型[D].哈尔滨师范大学,2021.
[8]刘文彬. 面向移动用户和时空数据的群智感知方法研究[D].吉林大学,2020.
[9]杨光. 群智感知中的激励机制设计[D].浙江大学,2020.
[10]李梦茹. 群智感知中基于区块链的安全激励机制研究[D].北方工业大学,2019.