作者:千山
最近,有位同事给我推荐了一款叫做“原神玩家指示器”的拓展脚本。传说中,只要装上这个脚本,打开任意一个B站视频,就可以识别出在评论区发言的网友是否为原神玩家。出于好奇,我试验了一下,发现的确有点意思。
“原神玩家指示器”脚本信息截图@Greasy Fork
初衷只是“做着玩”
这款“原神玩家指示器”发布在一个专为用户提供拓展脚本的论坛Greasy Fork上。作者laupuz xu在公开留言中表示,此拓展脚本主要应用于B站视频的评论区,安装了该工具的用户可以识别出发言的网友是否为原神玩家。
被标注为“原神玩家”的示意截图@B站
依据动态里是否有原神相关内容,通过脚本筛选、符合条件的网友就会在其昵称后被标注上“原神玩家”这几个字。由于作者本人提到自己就是做着玩的、不太会更新迭代,而不足总是存在的,在后续发展中,一众开发者就在此基础上,将这个“指示器”玩出了花。
有的开发了能覆盖B站、微博、知乎在内的多平台升级版本,更多人跳出了游戏圈,制作了能识别Vtuber的V圈指示器、能识别追星一族的饭圈指示器,甚至还有用户可以自定义关键词的指示器……..
以其中一款“新·三相之力指示器”为例,这个指示器主要作用在bilibili网页版中,运作原理也是相似的:通过爬取用户动态,在视频评论区的用户ID后标注出他们的“成分”。所谓“三相”指的是原神、明日方舟和王者荣耀这三款大热游戏。作者对这段脚本的说明是“B站评论区自动标注三相玩家,依据是动态里是否有三相相关内容”。
我试着操作了一下,就收获了一堆花花绿绿的“成分”后缀。比如,如果你在动态中没有提到过这三项游戏,脚本就会在你的用户名后标注“普通丨纯良”;提到过“王者荣耀”,你就会被标注为紫色的“稀有 | 农批”。
被标注的用户示意截图@B站
如果既有“明日方舟”又有“原神”,那就成了红色的“史诗 | 二次元双象限”;假如三项都提过,那就会被标注为金色的“传奇 | 三相之力”了。
被标注的用户示意截图@B站
不过,无论呈现效果有多么花里胡哨,这类脚本的逻辑都比较简单粗糙,依然有不少bug尚待消除。比如不少用户都对【隐藏丨动态抽奖】的筛选机制表示迷惑,此外,还有很多人反馈了一些令人哭笑不得的乌龙现象——某些在动态中留下“还原神奇宝贝”等无关“原神”话题评论的人也会被标记为“原神玩家”。
可以说,这类指示器的娱乐性远大于其功能性,但初衷只是“做着玩”的脚本工具在一些后续发展中却渐渐变了味。
灰色的“爬虫”
在Greasy Fork上,随手一搜就可以发现各种五花八门的指示器、“成分”检测器。仅从技术实现来看,这类脚本的开发并不复杂。它的核心奥义就是“爬虫”技术。
常见的搜索引擎大量使用的就是这种自动抓取网络数据的程序。曾几何时,在大数据行业,爬虫技术更是到了被滥用的地步,甚至有不少大数据公司利用爬虫技术过度收集、非法窃取和贩卖个人数据信息。直到政策收紧和监管加强,这一乱象才被遏制。
爬虫技术难度不高,技术本身也没有善恶之分,关键还是在于使用者如何去用。什么数据能“爬”,什么数据能“爬”但不该“爬”,用户知不知情,同不同意,爬到的数据如何做到防窃取,这些问题都需要使用者的谨慎审视和判断。但也正因为这些问题的答案很多时候都模棱两可,所以“爬虫”还是经常游走于灰色地带。
虽然随着技术的进步,很多公司都开启了反爬虫功能来保护数据安全,但就某些社交娱乐平台来说,用户的转评赞内容、头像、昵称、空间动态通常都属于公开信息,依然可以被爬虫获取。“原神玩家指示器”就是利用这一点,通过读取社交平台的API数据,抓取用户在动态和评论中公开发布的信息,再依照设定的匹配规则进行筛选。
用户有时会主动分享自己的数据,获得更优质的服务,达成更便捷的交互。但是,这个“度”如何界定?红线要划在哪儿?风险如何掌控?太多的疑问有待解决。
目前常用的应对策略是在网站根目录下放置Robots协议。这一协议旨在建立爬取方和被爬取方之间关于爬取意愿的通用且被遵守的技术规范。Robots协议通常会告诉网络搜索引擎的漫游器,哪些内容是不应被获取的,哪些是可以被获取的。严格按照Robots协议爬取网站相关信息一般不会出现太大问题。
如果说Robots更像某种“君子协定”,那么使用爬虫技术的法律边界又在哪里呢?上海市检察院第二分院第三检察部副主任吴菊萍在公开发文中提到,网络爬虫要体现并保持技术的中立性,可以从以下三个方面进行合法性限定:
其一,就爬取对象来说,应当限定为公开数据。
其二,就技术手段来说,网络爬虫不应具有侵入性。是否具有侵入性应当从技术本身是否具有侵入性和数据爬取行为是否遵守爬虫协议与合同约定两个方面来判定。
其三,从爬取的目的来说,要具有正当性、合理性、公平性。
当然,大部分用户认为指示器这类工具只是“图个乐呵”,爬取的数据皆是公开信息,并不牵涉利益目的,而且安装脚本的用户规模也不大。如果安装脚本用户量激增,对网站的正常运作产生了很大干扰,引起了平台方的注意,那么开发者和使用者才可能面临实质性的风险。
当我们被粗暴地“标签”化
由“原神玩家指示器”的诞生引发的系列连锁反应中,给陌生网友打标签的动因颇为值得深究。形形色色的指示器通过自定义的关键词来识别不同的群体,将互联网陌生人进行群像化分类,对用户而言,这种“成分”检测简单、粗暴,但又在一定程度上完成了某种社交“过滤”。
一方面,通过给他人打“标签”屏蔽不想看的标签内容和社交账户,就像如今各类社交平台上常见的屏蔽和拉黑功能,只是这类指示器的筛选更为粗放;另一方面,对在社交媒体上与自己意见相左、好恶不一的陌生人给予一种标签化的解释,进而发出“原来他是XX人,怪不得......”之类的感叹。
但深究一下,这种识别的手段何尝不是另一种“傲慢”?分辨“道不同不相为谋”的对象,防止陷入无意义之争的初衷没问题,但通过给他人打标签、戴帽子的手段进行鉴别,不过又是一种二极管思维的强化。此外,将看不惯的个人归入某个群体,也会加深人们对某个标签化群体的厌恶情绪。
当下的互联网环境中,在对某件事发表观点、展开讨论的时候,首先关心的不是事件真相,而是先查询对方的“成分”成了某种趋向,将对方纳入某个标签,似乎更有利于己方站在道德的高地。在试验指示器脚本的过程中,我发现已经有不少人指出了这种危险。
某个指示器的开发者如是说:
截图@Greasy Fork
某脚本讨论区的用户更是直言不讳:
截图@Greasy Fork
纪录片The Social Dilemma 中提到:“我们用互联网技术创造了全球一整代人,他们成长的背景中,彼此之间的交流,文化中都渗透着操纵的鬼影。”标签化可能就是互联网思维对于人的一种异化。只要有账号存在的地方,我们所见、所闻、所行、所买,凡是留下的痕迹都被视作数据,“喂”给算法,机器通过tag分门别类,再进一步“投其所好”。如何避免习惯于这种驯化或许才是我们每个具体的人应该思考的问题。
参考链接:
来源: 51CTO技术栈