“无障碍”之障 | 实时字幕、聋听空间与沟通劳动

上世纪80年代,中国残疾人联合会成立,呼应了联合国在全球各地推进的残障増权议程,也让政府国家以一种道德关怀的立场介入到具有身体差异的人群的日常生活。《联合国残疾人权利公约》签订的同时,新世纪的中国进入到了城市化和信息社会变革的双重高速路。一方面,“无障碍”成为各大都会基建软实力的一部分,盲道、轮椅友好厕所、坡道、手语翻译服务等构成了残障行动者们丈量城市包容性的一个标准。另一方面,互联网创造的虚拟世界让人们以前所未有的方式建立有机的新连接,看似脱离身体环境面对彼此。

我们是否可以说自己进入了一个“无障碍时代”?无疑,越来越多的人群开始了解、讨论、接受社会包容的价值。障碍不止来自于个体的身心差异,更是来自于机构和社会集体的运行方式——高考与四六级英语中,聋人学生申请免除英语听力部分、盲人学生要求点字版本试卷都是合理便利。但是,如果把包容和无障碍理解为一种劳动——需要结合技术、情感、经验的投入进行维系的结果,那么,这种劳动应该由谁承担、如何被认可?要让一次网络会议对更多人开放,仅在流程上做到可及是否足够?当越来越多社会工作者、政策执行者、科技玩家、设计师、商业大鳄和创业者开始使用“无障碍”标签,他们在创造和推进的未来有哪些区别?残障者自己如何参与到这一系列的对话之中,不让自己消失于众声喧哗?

两位人类学学生在疫情之中的暑假发起了一系列线上残障研究读书会,在没有资金的支持下,近30位跨越三大洲的参与者和志愿者们和我们一起,尝试从无到有建造一个对不同感官使用者开放的讨论空间。这种建造基于对现成工具的使用——微信、Zoom、石墨文档、瞩目、飞书、钉钉、科大讯飞、音书。在不同的应用黑箱之间碰壁、切换、游走过程中,我们思考和记录了那些让我们开心、惊讶,以及更多气馁或沮丧的时刻。线上会议是人类学家观察沟通文化的田野,是技术平台显现自己可供边界的空间,是行动者们创造意义和价值的抗争现场。在具体的事件中,我们相遇彼此,撕去想当然,在互动中被对方改变。

本系列是一种实验性的反思写作尝试。“无障碍之障”代表着所有矛盾和富有张力的瞬间。我们不希望把线上无障碍呈现为一系列黑白分明的规则,而恰恰希望通过持续的写作,去不断咀嚼和反刍被寄予厚望的技术和方案为何失败。

在本篇笔记中,我们以实时字幕作为舞台的中心。实时字幕在说话者和阅读者之间架起桥梁,是常见的无障碍解决方案之一。在人工智能热潮下,眼花缭乱的商业化技术解决方案开始出现,声称能够取代价格高昂的人工速录员,提供廉价而高效的“智能”语音识别速录。响应着基础设施人类学的号召,我们跟随着这个愈加普及但又被放置在黑箱中的技术,观察它勾连起的一系列人、物、情感、和空间。

实时字幕与电子屏幕。图片来源:xda-developers.com

在第一部分“演讲者=发出声音的人”中,我们描述了Zoom会议平台以声音为中心的底层逻辑如何既让线上实时讨论成为可能,但又让会议组织者必须花费时间精力去克服它创造的障碍。作为第三方插件,音书、石墨文档、搜狗语音输入等应用以不同的方式接入到Zoom这台机器之中,更是增加了即时沟通之中可能出现的意外。开始创造线上对话之时,会议者有着自己的议程和目标,但在实现它们的过程中,却不自觉地被自己所用的工具带着走向了其他的地方。正如麦克卢汉所说,“媒介即讯息”。只有将工具本身所蕴含的假设拆解开来,我们或许才能更准确地知道如何绕开自己不愿落入的岔道。

第二部分“‘提词器’与消失的现场”聚焦于一个具体问题:提前备好的演说脚本和实时沟通的交锋中间存在着多少隐形的劳动?由于听人聋人的同时在场,信息需要在图像、文字、声音之间进行多重转译。一个经济省力的方案是讨论者“放弃”临场发挥,将事先提前准备好的讲稿直接作为现场字幕,保证文字信息的准确性——本是思路交锋的实时记录,变成了引导讲者发言的“提词器”。这种被控制的信息流既让与会者感到莫名,也让会议的无障碍沦为了形式。但值得追问的是,为什么这种本末倒置的“无障碍”实践却并非稀有、一再出现?

第三部分“得益科技,伤于智能”加入了更多与会者的观点和回应。即使在共同的会议空间,不同个体所感受到的包容和障碍亦有所区别。我们坚持保留每位贡献者独立的声音或视角。在田野工作之中,民族志写作者并不是能够把控一切、描绘全局的上帝。线上会议中,会议组织者、手语使用者、听人、聋人、字幕控制者、现场参与者、技术顾问——这些变动的角色带出的具体感受,是让我们思考技术、空间和差异人群最有血有肉的原材料。

贡献者

子皓:听人,手语学习者,线上会议组织者,芝加哥大学比较发展人类学系博士在读。

吴迪:听人,线上会议组织者和参与者,麻省理工学院(MIT)历史、人类学及科学技术与社会项目博士在读。

甜饼:双语聋人,线上会议组织者和参与者,国内可持续支持聋听互融成长平台Know Deaf 创始人。

逗逗君:聋人,线上会议参与者,聋人权利倡导者。

顽真:听人,线上会议参与者/译者,有手语识读能力的人类学学徒,聋人权利倡导同行者(详见“守语者”)。

杨军辉博士:聋人,教育工作者,手语和聋人研究专业。

高羽烨(火花):双文化聋人,线上会议参与者,临床心理咨询专业听障群体方向研究生在读。

色影无忌:聋人,线上会议参与者。

空空:听人,线上会议志愿者/参与者,残障者亲人,目前在国内做残障融合就业的实践。

韦:聋人,线上会议参与者/志愿者,聋人研究专业(文化研究方向)研究生在读。

01.
演讲者=发出声音的人?

吴迪:

第一次读书会开始前,我花了一整天时间测试各种可能的设备和软件,讯飞、音书、慧译、搜狗语音输入、石墨文档语音输入与手机端、电脑端,各种排列组合。Zoom提供手动输入和第三方软件接入的选项,但我们所知的中文软件在当时都无法实现API(Application Programming Interface, 应用程序接口)接入。因此所有现存的非手动解决方法都只能隔空识别电脑公放出来的声音,这对于识别的精准度要求很高。如果希望会议上所有人都能看到字幕,常见的做法是开识别软件者共享屏幕,但通常会议只有一个屏幕可以共享,如果需要使用ppt就会与字幕产生冲突。

此外,由于我们希望读书会的参与者可以轮流担当字幕员,我们需要一个对各种操作系统和设备都适用且尽可能免费的软件。测试中,讯飞在功放识别和共享屏幕的操作下表现良好,识别度很高,但在真实会议环境里,会议人数增多拖慢网速,再加上共享屏幕,讯飞很快就出现严重卡顿。当时我们把识别度稍逊于讯飞的搜狗语音输入法作为备选,最终成了我们主要依赖的解决方案。测试阶段我咨询了很多国内组织过线上活动的朋友,其中一位发现可以用搜狗语音输入法+石墨文档实现所有人同步观看字幕的效果。

搜狗语音输入界面。将麦克风收录声音转为文字并在光标处输出

但这个方案同样面临需要打开多个界面和多个软件的问题,操作过重。石墨文档也有自带的语音输入功能,但手机应用和网页端不同步。经过多轮组合,效果都不尽如人意。我能想到的最后的办法,就是手动输入了。直到这时,我才发现,手动输入也会用到搜狗输入法,那如果直接用搜狗语音输入,再把光标放到Zoom的字幕输入框,是否就相当于是“人工智能”在“手动输入”了?经过测试小组验证,才有了这个在当时各方面表现稳定的解决方案。一个看似直白的技术解决方案,背后是诸多的取舍和对沟通的假设。

通过语音识别产生的实时字幕一般会被自动保存,能够作为会议记录的基础,似乎能大大减轻笔记员的负担。这是我对于读书会笔记整理的预设。为了不给当周做笔记的志愿者增加太多负担,我们通常会建议基于字幕整理,或只记录要点。但几乎每一次,笔记员都需要较长的时间完成整理。如果是基于字幕整理,两个多小时的文字量加上识别的不精准,需要许多精力去修饰和完善;如果只记录要点,每个人对要点理解不一,有时交流的信息量很大,又容易使笔记难以读懂。最为认真的笔记员往往会拿着自己记下的要点和字幕记录进行核对,投入相当多的时间产出一份高质量的笔记。

通过搜狗语音输入法+Zoom手动输入框实现的悬浮字幕,一般在视频会议画面下方。由于通过人工智能隔空识别,字幕准确率会受到环境噪音、网络信号、说话人口音等多重因素影响。此外在实践中,同样的操作下Zoom和瞩目的识别度也有很大差别。

其中一次重要的失误,让我意识到技术所包裹的刻板性,仍然时刻需要人的灵活性来调和。那一周的主讲嘉宾是聋人,以手语发言,并通过搭档的听人翻译通过口语翻译出来,此外还有两位听人手语翻译,负责把口语内容翻成手语。当周的笔记员也是聋人,我们也在准备会议中沟通了笔记员的注意事项,并安排了另一位听人志愿者作为字幕员。所有工作人员都在前期做了充分的准备,当天的讨论也还算顺利。 

直到几天以后,笔记员告诉我,视频的录像在手语主讲者发言时,只有口译一个人的画面。我的第一反应是:糟糕!难道要让聋人笔记员听口语来整理笔记? 

我立刻登录Zoom网页端查看视频,看是否可以通过调节设置来改变。录像画面确实只显示了口译一个人,好在实时字幕也显示了。但手语发言者的画面,和当时没有说话的其他人,都没有显示。我紧张地查看了我的Zoom录像设置,发现上传至电脑端的录像是“画廊视图”(gallery view),也就是所有参与者的画面平铺显示;而上传至云端的录像是“演讲者视图”(speaker view),即仅显示发言者。那天是我第一次把录像传到云端,于是只录下了发言者的画面。对于Zoom而言,发言者意味着“发出声音的人”。

本图是“演讲者视图”下的录像,一次只显示一位发言者,本图的发言者没有开摄像头,但只要发出声音就会被捕捉到。
本图是“画廊视图”下的录像,只要打开摄像头的使用者都会被记录,无论是否发出声音,图中正在发言的是右侧的参与者,位于左侧的手语翻译并未说话,但画面仍然可以被捕捉到。

Zoom软件设置中,允许本地录制(保存到个人电脑)和云录制(上传到云端)。由于前几次的本地录制占用大量电脑空间,也不便于共享,于是这一期读书会我首次选择了云录制。过去几期本地录制的视频都是“画廊模式”,这让我掉以轻心。我完全没想到,云录制的视频设置可能会有所不同。

这一疏忽使得我们没有提前做录像方面的测试,结果导致:聋人笔记员明明可以通过看录像直接根据手语发言内容整理笔记,但却不得不经过从手语到口语、再从口语到文字(字幕)的多重转译,支离破碎地还原现场。每次转译中的信息损失,都无迹可寻。听人口译和聋人发言者的对话感没有被捕捉到,发言者的手语画面也没有保存下来。“演讲者视图”彻底将非口语的发言者排除在画面之外。

Zoom录像的设置界面。Zoom云录制有多种设置选项,包括录制当前演讲者即“演讲者视图”、“画廊视图”和分别录制两种模式的选项。选项必须提前设置,无法对已经完成的录像进行修改。

比起责备Zoom只把“发出声音的人”当做“演讲者”的这种口语中心主义,让我更为遗憾的是自己没有预估到如此意料之中的技术偏见,以及在出现聋人发言者、聋人笔记员和使用新的软件功能等诸多新变量时,我们未能对过去摸索出的无障碍方案做出充分即时的调整。反思我们当周的准备工作,更多的是“前台”的无障碍,即保证嘉宾和观众的交流顺畅;而“后台”工作如笔记、录像等,这些对于工作人员的无障碍,似乎是更不可见的考量了。

02.
“提词器”与消失的现场

子皓:

在读书会结束快半年后,我参加了另一个聋听互融组织主办方做的线上圆桌分享活动。大家都有了部分经验,要在网络多媒体的会面之中提前设计好所有能设想到的便利形式——手语翻译、字幕、声音之间的实时相互转换。但虽说如此,如何达到这个目的却并没有那么简单。

在前期沟通之时,我们确立了一套准备程序:草拟好抛给各个嘉宾的问题脚本,把发言顺序确定,各个嘉宾提前准备自己分到问题的回答文字稿共享在会议微信群之中,让主持人、字幕控制人、手语翻译和各个嘉宾都互相了解各自想表达的东西。在会议前三天左右,参会的四位来宾都已经分别上传了文稿,有人根据别人传好内容还对自己的脚本进行了更新。

正式圆桌的前一天,组织方安排了一次与会者全员参与的会议“彩排”测试。这也是读书会中我们每次都必须安排的一个环节,大概用半个小时到一个小时单纯对会议的流程和其中的无障碍设置——实时字幕、手语翻译和嘉宾的配合等在会议平台上进行梳理。这次的会议平台是瞩目,界面和Zoom几乎一样。

甜饼:

作为圆桌活动的组织者,我放弃了更方便微信用户使用的腾讯会议,选择了瞩目会议,是因为腾讯会议的窗口跟共享屏幕无法调整。瞩目会议可以拉伸演讲者窗口,并设置手语者为主讲,这样手语者窗口跟共享页面的窗口就能以相同的比例呈现给观众。

子皓:

在测试的时候,字幕控制出现了问题:主办方分配的志愿者,并不知道如何搭配人工实时转录的音书软件和在电脑端的会议软件。作为技术支持,音书准备了若干文字和视频结合的教程供会议方学习,提前测试的瞩目会议中,音书员工并没有亲自参与。

音书科技官网上的手机应用视频教程。除此之外,音书工作人员也会通过微信等社交媒体对合作企业进行一对一培训和会议无障碍技术教学

在没有音书工作人员的现场指导下,志愿者并未完全参透多设备之间的声音转换文字的技巧。在会议的内嵌字幕栏打开,由会议主持人分配了字幕控制者权限之后,字幕控制者在自己的会议界面中会出现一个可以输入文字并发送广播的互动框。这个互动框可以由控制者自行手动输入文字,也可以通过第三方软件进行辅助输入。当现场口语发言者和手语发言者都存在,信息流转瞬即逝时,没有经过任何速录训练的志愿者无法通过手打字幕的形式跟上节奏。这一点在现场的与会者看来也并无意外。

瞩目会议软件的字幕输入选项。主持人才有权限进行分配角色和开启三方服务的动作。
瞩目会议软件的字幕输入界面。字幕控制者需要手动或者使用外接服务的方式进行实时的文字输入和广播。

在读书会时,我们从一开始就意识到了在没有额外预算聘请专业速录员参与每一次讨论的前提下,引入人工智能语音识别的技术辅助或许可以“曲线救国”。这次会议的主办方或许也是带着这个思路选择了音书,但临到现场才发现,和人工智能技术磨合同样需要时间和精力。例如——音书需要在手机端打开,还是在电脑端打开?如何确保每一位嘉宾和手译说的话都能被最清晰地捕捉到?声音信号在音书软件上被转译成文字之后,如何快速转移到瞩目会议的字幕输入框之中?机器识别出的文字如何换行和断句,保证观众们的阅读便利?

这些问题给了字幕员大量的压力,而对其他人来说,如果没有被分配到这个会议角色,在瞩目上并不会出现输入界面,只能看到断续、消失和不动的字幕条结果。在测试结束之时,实时字幕依然是一个悬置的问题。

甜饼:

在后面的第二期线上圆桌中,我们将音书操作成功了。一名工作人员下载音书后进行登录,他的电脑里就会出现音书的悬浮字幕,这样就可以使用共享屏幕的方式来为观众呈现字幕。但因为网速的原因,不管哪种线上会议,后台都会有延迟,出现意外就需要抽出时间反复调整。音书对于演讲者口音也有要求,如果演讲者的普通话不说完全标准,部分词汇无法翻译准确。

子皓:

在正式圆桌会议之时,我带着忧虑开始了现场的交流。比起前两天字幕的卡顿,这次却异常流畅和完整。但我也很快意识到,这是因为屏幕另一端的字幕员正在直接从每位嘉宾提前准备好的稿子之中,直接粘贴复制文字到输入框广播出来。

这在一开始仿佛并没有什么问题,每位嘉宾的开场白和自我介绍都非常流畅,和脚本几乎没有区别。但很快,当第一轮问题结束,开始第二轮交流时,我逐渐开始感觉到不舒服:我发现自己讲话时不断看着字幕,根据它跳出的部分来调整我的思路、措辞、语速。尽管这些文字本身就是我提前准备好的,但现在我却觉得自己被它们框定锁死,变成了朗读它们的机器,没有办法增加或减少内容。带着这种奇怪的被操纵感,我抓住时间在活动准备的微信群中打字:

“我建议如果嘉宾现场没有分享的内容,字幕就不要把准备大纲里面的文字复制黏贴到字幕框了,不然可能会产生一些困惑?”

诚然,很多发言者未必会像我一样会被自己说话时不匹配的字幕缠住,或许直接就无视字幕,直接现场发挥,亦或者接受字幕,甚至将其当做一个“提词器”,读完提前准备的东西。事后想来,那个不舒服的瞬间似乎代表着某种无障碍会议可控和不可控之间的张力。一方面,字幕、与会者、组织方所提前做出的所有努力——准备文字稿、事先会议测试、多人分工——都是为了减少会议现场的不确定性。让信息流变得可控,或许也是组织者视角中让会议更加可及、更多人都能参与的一条捷径。

然而,打出上述抗议的我也在想,我们是否在追求“完美”实时字幕的过程中,放弃了真正的实时沟通呢?如果所有的嘉宾都在遵循准备好的文字内容,在现场按顺序念完或者用手语打完,那么这次会议岂不是早在完稿的那一刻已然结束,现场的碰撞和思路交锋又在哪里?换句话来说,那种现场、灵动和不确定恰恰是沟通最大的魅力——对方某一个语气的变化、一个手势的加重、一次皱眉或者微笑点头,都能让你产生新的思路,改变对话的走向。

逗逗君:

我很能理解子皓的感受,作为主讲者,我自己也尝试过先给发言稿然后按照稿子的内容去发表,但我自己很不喜欢这样,因为会被限制住,但可能对于手语翻译来说,这个能减轻他们的翻译压力,毕竟就只用照稿读就好。另外一方面,我在使用手语发言的时候,是注重与眼神交流的,以及现场人员的反馈。如果有预备好了的文字稿,并且要求按照这个来的话,我就只能背稿,还不能时时刻刻看稿。

但如果要完全可以凭自己的想法去发言的话,就要有一个专业的手语翻译员,且这位手语翻译员是我能信任的,我才可以没有思想包袱地进行我自己的表达,而不用时时刻刻去担心,如果我这个表达手语翻译员看不懂怎么办?

我也看过其它一些线上的手语发言,可能不会手语的人不会察觉到,就是很多时候手语发言者并不会按照中文顺序去打,但字幕先于手语发言者跳出,像我就会看得莫名其妙。

子皓:

沟通无疑需要感官,但在媒介化的世界里,不同感官的渠道如何打开,不仅仅是个体的问题,更是会议组织者、每一个会议参与者都在和特定的平台技术共同创造的过程。尚未参加过集结了多重便利渠道线上会议的朋友们,可能会很难想象发言嘉宾、字幕栏、手语翻译、聊天框之间几股信息流的互相纠缠如何牵一发而动全身。

像圆桌会议上这样字幕控制者通过复制讲稿文字来创造“现场字幕”的做法并非孤例。在国内一个学术线上主题会议中我亦了解到类似做法:在一次四到五位听人学者发言的组会中,所有嘉宾提前递交了自己演讲的稿子;在现场,会议字幕负责人也是直接粘贴复制稿件中的句子,作为字幕伴随着学者的发言广播出来。不同的是,在这个学术报告会中,手语翻译是一位聋人。她的手语并非根据嘉宾实际的发言内容展开,而是广播出来的字幕。虽然字幕提供了一个看似安全和方便的中介,但由于它并非嘉宾们实际的说话内容,也没办法一一对应。所以,两股信息其实没有交错,各说各话。

顽真:

子皓提到的聋人手译员的例子,让我想起我所知道的一个近似的例子:同样是学术会议、听人讲者(英语主讲)与聋人手译员,不同的是字幕员为高成本的速录员。由于速录员只能听看中文,所以在速录员的身边有一位业余的中英双语使用者担任翻译。当讲者讲的范围超脱文字稿时,即时让速录员补充资讯。我们可以看到的是一层又一层的信息筛选,在这样的情况下,即使聋人译员可以把资讯漂亮地传递到聋人观众那里,聋人观众也很难迅速地把所思所想传送回去以达成交流。

不过这就是讲座和参与式培训之间最大的不同,讲座类型的沟通重视单向的信息流。那么,在一场讲座中,我们希望的到底是信息流可以顺畅(不卡卡)、方便(基于视觉)地读取,还是要讲求精确地实时同步呢?这个是我自己在翻译的过程常常面对的两难。 

逗逗君: 

看字幕翻译是我作为聋人手语翻译员一个新的尝试,之前都是会与听人手语翻译员搭配或者与实时字幕搭配,这样能更精准地翻译发言者的内容。但因为“网络”、“费用”等诸多原因,很多时候,为了能按时,顺利地办完一场会议,主办方的重点会聚焦于“完成会议”,无障碍只是作为辅助作用。但主办方能够请聋人手语翻译员,我觉得至少在内容清晰度上是高于只有字幕或者听人手语翻译员的。 

我也在一次有预备稿件的多语言线上分享中遇到意外的问题,准备了两位手语翻译员,一位负责口译(将我的手语翻译成中文),一位负责手译(将听音语言翻译成手语),前期在通过测试熟悉的环节时候,英文字幕翻译志愿者说完全没办法复制粘贴,因为很生硬,最后决定现场听中文实时打出英文,虽然慢了一些但效果好一些,比如感觉会更真实一些。然而当天正式分享的时候,另一位手语翻译因为一些技术原因无法登陆,导致工作分配出了问题,后来登陆之后,顺序被打乱,我不知道该看谁的手语,导致我漏掉很多信息。

空空:

有一次我和甜饼以及另一位视力障碍的朋友,通过会议软件做了一次线上对谈。视力障碍的朋友和我开着视频,甜饼只是打开了语音,人工耳蜗可以支持她获取声音,但有延迟。我在对话的空档输入文字,以补充人工耳蜗的延迟和其他技术上的不足。

对话比我们想象的顺利很多,并且也很深入,其中一部分,我们讨论并学习了手语。甜饼告诉我们,类似“秦始皇”这样的名词,可能会在手语中被翻译成“古代的一个皇帝”,这样的举例,让我在当时的沟通中理解了我们三个对话者身后语境的差异:词汇构成了我们使用的语言,这样的对话无异于在各自使用对方的外语进行着交谈。手输字幕,在这次紧密的沟通中,起到的是补充语境的作用,在更多人参与的线上会议中,我觉得未必能达到这样的效果。

03.
“得益科技,伤于智能”?

子皓:

实时字幕连接了会议中的多个环节。首先,它是会议前组织者就需要考虑的技术设置——人工速录还是自动语音识别?是否使用会议平台之外的三方软件?若是使用,如何接入到会议平台的输入端口?这些思考必须在正式会议前就已经被确定下来。但即使如此,在现场依然会存在无法控制的意外和变化。在会议之中,实时字幕和其他的信息流一起,共同构成了与会者们沟通和互相理解的原材料。字幕的切换速度、字数、准确率都会影响观感。而在会议之后,实时字幕作为现场发生讨论的记录,又被保存下来,成为事后回溯的档案数据。

这一系列过程不是悬浮在空中,而是基于大量的计算、思考、选择、判断的劳动之中。的确,语音识别让机器部分完成了本完全是人力的劳动。但从我们共同的会议经验来看,还有大量的劳动依然存在,包括因为机器参与而产生出的新的配合性劳动,例如对识别错字进行实时更改,又例如在会议事后因为机器记录不全而必须进行的人工审核。

色影无忌:

目前高科技手段,虽然可以做到语音转文字,但存在有一定的出错率。就像《新闻联播》直播新闻节目,要知道这是代表国家形象,重要性则表示不能出现一点事故。因此AI字幕暂时不能实现。而且目前语音转文字技术,存在最大问题是语句不通,它有时候会改变/曲解原声音样本所表达的意思,因此很考验聋人的理解能力。

关于字幕的技术实现,还有一些方法:

方法1:华为支持“Huawei Share 智慧跨屏”,很好用。方法2:联想推出“Lenovo One”,经过亲测,可用。

Lenovo One界面演示

方法3:推荐“讯飞听见会议”,经过亲测,可用。亮点包括实时显示双语字幕、自动生成会议记录等。

讯飞听见会议的双语字幕演示

韦:

除了前面提到的和实时字幕有关的设备和软件,还有一个“今声优盒”。北京时间2020年11月22日的时候,我在线上观看了由中国聋人协会发起的“无障碍接打电话、收看实时字幕”科普活动。线上直播及线下会议采用了今声优盒实时嵌入字幕解决方案来添加实时字幕,我个人的感觉是不错的,准确率也比较高,延迟不是太明显。但“今声优盒”是一个机顶盒,售价1999元,持有听力残疾证群体以及60岁以上无听力残疾证的老年人群购买后赠送1000小时实时语音流量包及技术服务费(实时语音识别商用市场价6元/小时左右),需要与其他设备比如电视、笔记本电脑、投屏器、手机、平板电脑等连接和设置才能使用。具体的情况可以关注“今声优幕”微信公众号去了解。

2020年11月22日线上直播实时字幕情况

空空:

其实大厂软件中,飞书的实时语音转文字做得挺好,但是对视力障碍者很不友好,也必须“出售”个人信息才能使用,所以我推荐给吴迪的时候,不是很有底气。只是在之前的工作中,和听障者用飞书做过几次对话,基于准确的文字转录,作为语音输入者,我得以有机会在语音中加入我的感受和情绪,我希望冰冷的app可以识别出我的“哈哈”或“若有所思”,并帮我转达出去,这确实是我寄希望于软件,而非翻译者来实现的。

想起3Play Media在美国做的信息无障碍服务和推动,就是为视频平台提供无障碍字幕。这类无障碍字幕,除了翻译了信息,也丰富了语境和情绪的传递,比如视频画面中没有人说话,但会显示出“下小雨的声音”、“一个孤独男人的脚步声”等这样的字幕。当然要在“单向信息流”的会议中做到这一点,还有必要性、技术实现等很多因素要考虑。 

逗逗君:

看起来好像人工智能能帮助人节约很多时间成本,但在实时字幕,语音转字幕这个智能上,我真的体验到相比直接人与人用写的还要耗费大量的时间与精力,但不可否认的是,这个只是人们需要时间去熟悉智能的使用方式,如果使用成熟,或许会好很多。

杨军辉博士:

即时字幕有个头疼的问题是聋 “deaf”常常出现为 “dead”。因为错字、没有标点,阅读即时自动生成的字幕比阅读书本文字和看真人手语翻译更消耗眼力和脑力。会议结束后字幕稿件当成文字稿阅读也不舒服,除非速记笔记员给重新整理,修正错误词语,或自己重新记笔记。

不同的语音识别转文字软件,识别和显示英文文字都有些不同。多语言环境,讯飞听见识别好一些吗?在中文环境,明明说中文,机器有时却自己猜到英文或中文句子。聋人说话,识别出来的都是AI 乱拼乱猜的。

我们聋人一辈子都在努力沟通,哪怕获得一点点信息,也有满足感,不觉得“失败”。别人聊天,告诉我要点或概括地告诉我聊什么话题,就可以理解了,但对我们聋人说“以后告诉你、与你无关”则使我们会伤心的。听人觉得与聋人沟通“失败”吗?经历沟通挫折太少啊。

甜饼:

我前天就在思考一个文章选题:得益科技,伤于智能——听障者如何与人工智能角力。听障者现在太依赖科技了,反而会被框住。我因科技受益,也因科技被困。但现在的氛围,都在鼓吹科技对听障者的帮助,这并不是好的现象。我在线下因为“科技”陷入蛮多尴尬的场面。大家习惯使用科技来跟我对话后,仿佛将机器看成了我,或者觉得只需要有机器就好。很多时候,让我觉得被隔离开外,不太舒服,我不知道这算不算是一种敏感。 

顽真:

科技作为辅助的工具为的是减轻人类的劳动付出或是取代(例如电子耳),从两位读书会发起人的讨论当中,我很开心地看到实践发现与我原本的直觉——在沟通事件当中人脑劳动尚且无法被替代——相符。

在科技持续发展的同时,我觉得人类不能止步,也不能只将大量的资源与心力放在发展科技。每每有人说可以通过基因筛检、早期手术来遏止聋的人学不会口语,或是用语音识别、手语手套之类的工具来改善聋人的沟通处境,我都觉得本末倒置了。读书会的时候,我们可以看见参与度的差异,这已经是努力地让信息可及之状态下了,能够完成的思想交流却还是如此地有限。希望关于读书会的后设讨论(正如我们现在正在做的)真的能够有更多不同角度的呈现。

火花:

看了几位同学分享的想法。关于网络会议的信息无障碍,我确实更喜欢速录员,因为比较灵活,又受过专业训练,信息传递效果更佳,但最大问题是预算太高。像逗逗君说的字幕先于手语发言者跳出确实会觉得很奇怪,明明是主导角色的手语发言者变成了被动的角色,这个好像和信息无障碍的理念有冲突。

我在2018年暑期在东北部沿海城市的一个研讨会做过短期的中美手语翻译工作,两三个发言者也是先给我他们的发言稿,我当时是先阅读他们发言者的大致内容,和发言者和手语翻译组组长确定一些专业词汇的手语打法,并被告知要随机应变。在实际翻译过程中,一些发言者没有完全按照稿子发挥,由于已经做好了突发情况的心理准备,因此能比较轻松应对。

虽然科技是进步了,但大部分人们的无障碍观念并没有完全跟上,就像有的项目仍然在做手语翻译手套,并没有事先考虑和询问听障群体的真实需求。这次的残障线上读书会带给我的惊喜是挺多的,虽然确实有不少的突发状况,但大家都能互相理解和支持,很快地从其中总结经验和准备备用方案。希望在未来的一天,不管是线上读书会还是日常生活,信息无障碍能够变成真正意义上的无障碍。

相关阅读:

国际聋人周的礼物:一份人类学书单

世界母语日与母语政治的变迁


若要转发本文,请在本平台留言,或者邮件联系。
Copyright © 2020 TyingKnotsAll Rights Reserved

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注