大数据时代国外数据素养研究: 争议、类型及实践形态
摘要: 大数据技术革命中数据技能缺失、算法决策风险、数据参与差距等诸多问题引发国外学者对数据素养的关注。从理论层面而言,数据素养本身具有内在合法性的争议,即数据素养在大数据时代是否适用以及数据素养的技术维度与社会伦理维度的关系界定。从实践层面而言,数据素养主要包括工匠型数据素养、参与型数据素养和交互型数据素养,其实践形态以技术干预模式为主。为了规避数据驱动社会的各类风险,需超越技术性的数据素养,从人与数据交互的视角把社会伦理融入到数据素养中,以促进以人为本的大数据技术发展。
关键词: 工匠型数据素养; 参与型数据素养; 交互型数据素养
一、大数据时代数据素养的兴起: 技能、民主与伦理
大数据时代数据素养的兴起源于当前海量数据的使用及其影响。大数据时代,数据尤其是非结构化数据不仅成为新型经济资产,而且数据借助于算法以驱动决策的方式深刻影响每个人的生活世界。进一步而言,大数据也引发诸如隐私泄露、算法决策风险、数据不平等、参与差距等亟需解决的问题。数据素养则是解决这些问题的关键之一,因而成为大数据时代的重要问题。具体而言,大数据时代数据素养的兴起有以下三方面原因:
二、大数据时代数据素养概念的合法性争议
基于上述原因,大数据时代数据素养概念的合法性争议主要有两个。
争议 1: 数据素养这一概念在大数据时代是否依然适用。存在两种观点,一种观点认为大数据时代数据素养这一概念仍然适用。持此观点的学者多从不同的学科和视角界定数据素养。例如,杰克·R·卡尔森( Jake R. Carlson) 认为,数据素养包括理解什么是数据,恰当地阅读各种图表,从数据中得出正确结论以及识别数据在何时被不恰当或错误的方式使用。〔8〕教育研究者艾伦·曼迪纳契 ( Ellen Mandinach) 则在上述定义基础上,结合教育领域的特点,将数据素养进一步扩展为将数据转化为信息进而最终转化为恰当教育实践的能力。〔9〕
另一种观点则认为数据素养这一概念在大数据时代是不充分的。麻省理工学院媒体实验室公民媒介中心的学者拉胡尔·巴尔加瓦( Rahul Bhargava) 认为,“数据素养”的概念在大数据时代是不充分的。具体而言,围绕着“使用和分析数据能力” 的各 种 数 据 素 养 概 念 在以下三个方面受到质疑〔3〕5 - 7 : 一是它们仅指如何从数据得到信息,而没有涉及经典知识层次理论的最终目标———智慧; 二是没有质疑数据收集水平,而是将数据作为给定的原材料一般静待提取和处理; 三是没有为政治和伦理的考量留下余地。因此,应从“数据素养”( data literacy) 概念走向“数据时代的素养”( literacy in the age of data) 。进一步而言: 现有的数据素养定义或是建立在传统信息素养和统计素养的基础上,或是关于如何转化数据以指导实践,因而不足以解决缺乏透明度、数据主体对数据采集的不知情、数据主体无法参与到对自身产生影响的数据驱动决策过程等社会与伦理等问题,进而需将数据素养定义扩展为大数据素养( big data literacy) 。其三个核心要点分别是: “理解关于你的行为和互动的数据是何时何地被收集的; 理解在大量数据分析中所使用的算法操作; 权衡数据驱动决策对个人和社会真实的与潜在的伦理影响。”〔10〕
争议 2: 伦理在大数据时代数据素养中的定位。不同学者对伦理与数据素养之间关系的考量并不一致。概言之,有两种不同的见解:
一是将伦理问题限定于数据素养的子集即道德地使用数据之中。持此观点的学者大多将数据素养概念局限在某一领域。如科研领域的数据素养分为理解数据、寻找与获取数据、评估数据、管理数据和使用数据五大核心能力。使用数据作为五大核心能力之一又包括数据处理、综合且适当地展示数据分析结果和道德地使用数据。在此,道德地使用数据所指涉的是数据使用者会引用数据源,如通过他人获得数据源时确保所使用的方法恰当、结果解释公正透明。〔11〕123 - 134
二是将伦理作为数据素养概念的背景和大前提,置于数据素养各子技能之上。持此观点的学者认为,数据素养是解决大数据时代参与差距、个人隐私安全、数据主体隐匿、数字鸿沟等政治与伦理问题的有效途径之一。例如,数据素养研究者安妮卡·沃尔夫( Annika Wolff) 明确地以伦理统帅数据素养概念 的 各 个 要 素。〔12〕15 大卫·克 鲁 索( David Crusoe) 则将伦理原则明确为安全与隐私。他认为, “数据素养是在安全与隐私的背景下关于数据是什么,它们怎样被收集、分析、可视化和共享的知识,以及对数据如何应用于产生利益或损害的理解。其中,安全描述了数据应怎样被存储以拒绝不希望出现的访问,隐私则描述了对谁能够看到关于数据的哪些内容的控制。因而,数据主体安全与隐私既不是大数据时代数据素养所包含五个要素之一,更不会成为其第六个要素,而是大数据时代数据素养得以可能的必要前提与背景。”〔13〕38 - 41在此意义上,数据素养本身就是伦理的要求。〔3〕17
三、大数据时代数据素养的主要类型
根据学者对数据素养阐释的不同视角和侧重点,大数据时代数据素养的类型可从总体上归纳为三种: 工匠型数据素养、参与型数据素养和交互型数据素养。
1. 工匠型数据素养: 数据工匠
工匠型数据素养仅关注与某一领域数据的使用和分析相关的知识与技能,它更多地具有工具性价值而较少涉及大数据所引发的社会与伦理问题。例如,科研数据素养主要包括在数据生命周期内访问、解释、批判性评估、管理、处理和道德地使用数据等能力〔11〕125,其主要目的是研究人员能将数据处理、数据管理、数据监护等融入科研工作流程。与科研数据素养密切相关的是图书馆数据素养,它以数字化监管能力为核心,主要包括了解不同组织背景与政治法律问题的管理能力〔14〕和专业技术能力。其中专业技术能力包括数据选择、保存和与用户交流的技能,数据处理、开发与存储方法等涉及计算机科学与工程专业知识,以及数据学科属性的专业知识。〔15〕图书馆员具备数据素养的目的在于承担大数据时代图书馆员的诸多新角色,如数据获取与权利咨询顾问,数据素养的教育者,研究数据生产者和使用者的人类学家,数据存储、管理与共享系统的制造者,数据管护者等。〔16〕
2. 参与型数据素养: 赋权与平等
参与型数据素养以开放数据为背景,以包容性社会为旨向,其核心目标是消除数据访问与数据素养之间的不平等,为每一个公众赋权。具体而言,参与型数据素养致力于克服数据使用技能与知识的不平等,从而使公众不仅能够平等地获取数据,更能将数据运用于个人所关注的当地问题的解决,同时能够让那些不懂数据语言的边缘人在政府创建规则与政策方面拥有更大的发言权,并从中受益。〔17〕52 - 53进一步而言,参与型数据素养以解决现实世界问题为目的,以道德地使用数据为前提,指的是能够从数据中提出问题、制定研究计划、收集与清洗数据、分析与可视化数据、解决问题并发现新的问题的能力。〔12〕14 - 17
3. 交互型数据素养: 人与数据的良性交互
交互型数据素养不同于前两类数据素养,它既不面向某一领域的专业人员和特定数据集,也不面向政治话语中的公众和政府的开放数据,而是立足于每一个理性人的个人数据。进一步而言,交互型数据素养主要解决数据主体如何与数据相互作用,即在一个不完善的数据世界中大众如何管理和控制个人数据,保持其隐私,且在算法推荐与决策下保持自由选择与自主行动的能力。
四、数据素养的实践形态
当前建立数据素养的实践主要以技术干预为主,包括技术干预下的数据素养教育和支撑数据素养的软件工具。
1. 数据素养教育实践
第一,网络在线教育实践。无论是工匠型数据素养还是参与型数据素养,网络在线教育都是其主要实践形式。就科研数据素养而言,国外大学图书馆大多都为科研人员和研究生提供了在线学习课程,如马萨诸塞大学医学院 Lamar Soutter 图书馆为健康科学、工程学科等专业的本科生、研究生及研究人员提供新英格兰数据管理协作课程( New England Collaborative Data Management Curriculum,简称 NECDMC) ,此课程由七个相对独立的在线教学模块构成,可满足不同学习者的需求。除此之外,还有其他社会组织开展的、面向非科研人员的在线数据素养教育。如,数据学院( School of Data) 面向社会组织、记者和公民,提供以数据基础知识和特定技能为重点的数据素养网络课程。此课程由数据基础、数据清洗、数据探索、数据处理与制图、使用智能手机收集数据和数据呈现六个独立的学习模块构成,学习者可依据自身需求而按照任意顺序展开学习。
第二,技术参与的实体教育实践。例如,托马斯·M·菲利普( Thomas M. Philip) 设计了针对青少年大数据素养教育实践框架与模式。此框架主要包括以下几个层面的内容〔18〕 : 一是熟练使用数据科学的技术性工具和语言; 二是不仅将数据的生成、收集、分析、可视化、交流视为理解、解决社区与社会问题的有效方法,而且能使用数据解决自己感兴趣的问题,即在体验通过数据解决问题所带来的满足感的同时看到数据的魅力; 三是学会从数据中提出问题,知道数据的生成、收集、可视化、解释等并不是中性的或客观的,而是以一系列基于某种世界观、价值观和社会权力的假设为前提的; 四是了解借助数据解决问题的局限性。
2. 支持数据素养的技术工具
支持数据素养的技术工具大体具有两个特点:
第一,技术工具通过相对简单的在线指导而间接地提升用户的数据素养。“正如我们需要学习如何更换自行车上的轮子或者清洗洗衣机过滤器,却不需要如机械师或工程师一般详细了解其内在构造与原理。很多人转向多种形式的在线指南来实现数据素养,而无需这方面的专业知识。”〔7〕232 - 235如 Data Wrapper、Google Maps、RAW 等都是以用户“会用”为核心的软件工具。以 CartoDB 为例,CartoDB 的“一键式制图”功能不需要用户具备编程基础,它可自动分析用户上传的数据,从中提取信息并提出一系列的可视化建议以供选择和修改。尤其是其空间数据的分析和可视化功能,它们为了解城市公共服务设施的可达性、邻里与社区结构在城市发展中的作用等问题提供了有益帮助。
第二,关注非专家用户易于理解的数据可视化。数据可视化的形式是影响公众理解数据分析的输出结果的重要因素。以常用图表为例,为特定数据集配备不同类型的图表,观众对其的解释与理解也会不尽相同,因而,选择最有效的、能够引导观众做出最准确解释的图表类型尤其重要。相关研究表明,当观众需要量化图表中显示的信息时,柱状图可以让他们做得更好。在不同的柱状图类型中,包含两个分布条形柱的直方图能够导向最准确的感知。〔19〕建设性可视化就是在这方面的一个尝试。“目前支持人们创建可视化的方法大多是开发代码库、工具包或创建可视化模板,并提供一个可共享所创建的可视化的基础结构。非计算机专家在设计可视化方面存在很大困难,特别是在选择数据、制作可视化图片并解释可视化方面。建设性可视化则创建一个交互式环境,在其中人们可以从模块化数据链接单元中直接组装符合其需求的可视化,最终使人们能够设计和建构自己的可视化,如个人健康等量化自我数据的可视化、社区的犯罪分布可视化等。”〔20〕
五、数据素养———促进以人为本的大数据技术发展
超越工匠型数据素养。现有关于数据素养的概念和实践多侧重于其技术性内涵,尤其是对具体领域技术使用者所需数据素养的阐述。然而,技术性的数据素养概念可能会仅使我们意识到而不是解决数据驱动社会的各种风险。〔3〕25 - 26因而,需要进一步从数据主体生活经验的视角明晰和揭示数据素养概念。具体而言,立足数据和算法决策导航的社会,从作为个人数据的创造者、管理者和算法对象的数据主体的生活体验出发,探究数据主体所需数据素养的内涵及实践; 如此一来,数据素养就不再以某种具体的知识、技能或熟练操作某个数据技术平台为主要内容,而是要提升数据主体对数据驱动社会的基本原理和风险的了解。〔13〕38 - 42与此同时,这种理解反过来又会增强人们理解、解释和使用他们所遇到的数据,甚至是分析他们的个人数据。在此过程中,不仅实现了人与数据的真正交互,而且能够通过伦理地提前介入而规避数据驱动世界所带来的各种风险。推荐阅读:大数据背景下统计学本科教学体系研究
参考文献
〔1〕Frank M,Walker J,et al. Data Literacy - What is it and how can we make it happen? [J]. TheJournal of Community Informatics,2016, 12( 3) : 4 - 8.
〔2〕Deahl E. Better the data you know: Developing youth data literacy in schools and informal learning environments[EB /OL].[2014 - 06 - 15]( 2018 - 06 - 03) . http: / / ssrn. com /abstract = 2445621.
〔3〕Bhargava R,Letouzé E,et al. Beyond data literacy: reinventingcommunity engagement andempowerment in the age of data[R]. New York: Data - Pop Alliance ( Harvard Humanitarian Initiative, MIT Media Lab and Overseas Development Institute ) and Internews,2015.
〔4〕Gurstein M. Open data: Empowering the empowered or effective data use for everyone? [J]. First Monday,2011,16( 2) : 2 - 7.
〔5〕Haddadi H,Mortier R,et al. Human - data Interaction: The Encyclopedia of Human - Computer Interaction[R]. 2nd Ed. Denmark: The Interaction Design Foundation,2016.
〔6〕Mittelstadt B,Allo P,Taddeo M,et al. The Ethics of Algorithms: Mapping the Debate[J]. Social Science Electronic Publishing,2016, 3( 2) : 1 - 21.
〔7〕Frank M,Walker J. Some Key Challenges for Data Literacy[J]. The Journal of Community Informatics,2016,12( 3) : 232 - 235.
〔8〕Carlson J,Fosmire M,Miller C,et al. Determining Data Information Literacy Needs: A Studyof Students and Research Faculty[J]. Libraries Faculty and Staff Scholarship and Research,2011: 1 - 30.
〔9〕Reeves T. Book Review: Data Literacy for Educators: Making it Count in Teacher Preparation and Practice[J]. Mid - Western Educational Researcher,2017,29( 1) : 84 - 88.
〔10〕D’Ignazio C,Bhargava R. Approaches to Building Big Data Literacy [C]. Proceedings of the Bloomberg Data for Good Exchange Conference,USA: New York,2015.
〔11〕Prado J C,Marzal M . Incorporating Data Literacy into Information Literacy Programs: Core Competencies and Contents[J]. Libri,2013,63( 2) : 123 - 134.
〔12〕Wolff A,Gooch D,et al. Creating an understanding of data literacy for a data - driven society[J]. Journal of Community Informatics, 2017,12( 3) : 9 - 26.
〔13〕Crusoe D. Data Literacy defined pro populo: To read this article, please provide a little information[J]. The Journal of Community Informatics,2016,12( 3) : 27 - 46.
〔14〕Tammaro A M,Ross S,Casarosa V. Research Data Curator: the competencies gap[C]. BOBCATSSS 2014 Proceedings,Spain: University of Barcelona,2014: 95 - 100.
〔15〕Lesk M. Curators of the Future[J]. Data Analysis and Knowledge Discovery,2013,29( 3) : 1 - 7.
《大数据时代国外数据素养研究: 争议、类型及实践形态》
- 职称论文刊发主体资格的
- 政法论文浅析工会法主体
- 化学在初中教学中的情感
- 中学教育论文思想政治方
- 法治论文投稿法治型市场
- 杂志社论文发表浅析推动
- 新疆教育报投稿浅析学生
- 分男女招生录取的合宪性
最新优质论文
- 论文发表三步曲
- 教师类职称论文一般多少
- 如何提供职称论文的知网
- 新闻专业有哪些职称
- 职称晋级论文检索才认可
- 职称评定需要发表什么样
- 医学领域cscd期刊怎么查找
- 浙江师范大学学报编辑部
论文发表问题热点
- 《教育探索》核心级教育
- 毕业及职称论文发表需要
- 电力系统职称核心期刊怎
- 工程管理专业论文摘要准
- 博士生毕业论文答辩技巧
- 发表职称论文如何鉴别期
- 硕士从助工晋升中级职称
- 简述机械工程师基础考试