XXXX001-V06-计算机化系统的数据保存当我们分析我们的世界时,尤其是现在我们使用各种仪器来分析物质的时候,总是会牵涉到几个问题我们采集的电子数据保存在哪里?它又有什么属性可以让我们唯一地识别到它?。
继而我们还会提出来数据采集持续性,数据可靠性和数据安全等问题,尤其在生物医药领域,数据可靠性和安全问题显得尤为重要这个问题是我们从计算机化系统中寻找或者识别电子数据的首要问题,绕过这个问题,我们将无法深刻的认识我们依赖的计算机化系统和我们的努力获取的电子数据,不管我们是设计者,使用者,验证工程师,还是审计工作者。
我们尝试尽可能地识别电子数据存储在数据可靠性方面的关键要素,并提供综合的视角来看待电子数据存储,以期获得我们对于电子数据保存和计算机化系统更加紧密的关联,从设计,使用,验证和审计等方面更加清晰地了解电子数据的存在。
为了便于分析问题,我们以问题的方式进行说明计算机化系统在设计,认识和管理上针对数据保存应该关注和识别的问题,并且对每个问题进行编号(编号规则:DSXX, 其中DS为Data Save的缩写,XX为两位流水序号,从01号开始)。
DS01: 电子数据是保存在数据库系统中还是保存在Windows文件系统(如Windows NTFS文件系统)中?这个问题是电子数据存储的一个分水岭,如果是电子数据保存在非数据库的系统中,遇到的数据可靠性方面的挑战和风险相对而言就会比较高。
如果电子数据存储于数据库系统中,数据可靠性方面的挑战和风险会大幅降低,但也并不是所有问题都会得到解决,反而对于普通的使用者而言,可能更加的迷惑,比如他或许可能并不清楚数据存储在哪里(因为可能大家都比较熟悉的是数据存储在D盘或者C盘中某个文件夹中)
当然这个问题其实对于非专业的人士来说是一个挑战,甚至很多人都不清楚数据库与非数据库的区别一个比较简单的区别方式就在于我们在采集数据时是否需要选择数据的保存位置,如果需要选择数据的保存位置至Windows的某个路径,那么这个系统的数据就会是存储于非数据库系统中,如果选择数据存储位置至应用软件的某个路径,甚至可能没有意识到还需要选择存储路径,那么这个系统大概率是数据库系统。
案例:Molecular Devices 公司Softmax Pro软件是一款广泛使用的微孔板读板机(酶标仪)控制和数据分析软件,早期的软件版本数据存储在Windows文件系统(Windows NTFS文件系统)中,后期软件升级到Softamx Pro 7.1.2 版本后变为了数据库版本,所有的数据(包括采集的数据,审计追踪和账户信息等)都存储于Microsoft SQL Database 中。
【1】随着时代的进步,数据库的系统在所有计算机化系统中的比重是逐渐增加的,也就是说数据离散存储的状态有向统一存储的方向改变的趋势DS02: 系统采集的电子数据存储在哪里?系统采集的电子数据存储在哪里是至关重要的问题,也可能是很容易被忽视的问题,该问题在设定系统的数据备份任务的节点上是需要明确的,因为他被定义了哪些数据需要进行备份,以便在数据丢失时能够从备份系统中恢复所需要的数据。
一般情况下,我们的采集的电子数据都会有规定明确的数据保存路径,即便是数据库系统中存储的电子数据,也需要明确数据库备份的路径当然系统可能会生成一些其他形式的数据,比如系统的审计追踪信息,系统的账户信息,系统的关键配置信息等。
,这些数据可能并不会和采集数据在一个存储路径,往往这是数据备份最容易忽略的路径,导致的后果就是在电子数据丢失时无法恢复对应需要的电子数据这需要我们加深对于电子数据的了解,识别各种电子数据的存储状态和路径,备份所有我们识别到的电子数据,同时在备份与恢复的验证中进行确认。
识别电子数据存储状态和路径并不是一个简单的事情,随着使用场景的增加和对于系统的了解,可能我们会发现更多的可能的数据类型,比如各种仪器设备报警的数据,错误日志,运行日志等等对于数据库系统,它并不是意味着所有的数据都存储在数据库中,对于非数据库系统,它也并不是意味着所有的数据都存储在被定义的常见的指定路径中。
一个良好的实践是:组织应该有一份实时更新的计算机化系统的备份清单,该清单至少能够明确各种类型系统是否是数据库的系统,电子数据的保存路径,以及该电子数据的基本说明,文件类型等基本属性如此,企业才能够明确所有的电子数据资产。
数据备份后,也需要明确备份的电子数据存储的介质以及存储地点DS03: 系统是否支持电子数据自动保存?一个良好的计算机化系统应该设计为自动保存采集的电子数据,同时电子数据在采集前需要明确输入关键的采集信息等(比如采集物理性关键参数,如温度,波长等;采集的样品信息:名字和批号等),尽最大的努力降低采集者有预览,挑选和篡改数据(包括数据采集之后的采集方法等)的机会和能力,以及最大限度地降低数据无法保存或者丢失的风险。
计算机化系统如果不支持电子数据自动保存,那么意味着数据采集者很可能在数据采集完毕后放弃保存已经采集的数据,从而引发数据可靠性的一个基础问题-无法获取某次测量的所有的完整的数据进行评估针对数据非自动保存的系统,需要识别数据保存过程中的风险,通过流程或者其他的技术手段快速识别可能存在的数据丢失或者数据刻意不保存的可能性,降低数据可靠性的风险。
针对于数据自动保存的系统,并不意味着数据保存没有风险,尤其是网络版的系统,依然需要做好数据保存的风险评估,可以参见 DS12.DS04: 系统是否支持数据保存时强制数据保存路径?计算机化系统如果在数据采集过程中默认数据存储路径,或者需要用户预先定义强制的数据保存路径,那么将从技术上避免“孤儿”数据,所有的电子数据都将存储在对应的强制性的路径中。
DS05: 系统是否提供电子数据的唯一性识别码?系统能够给与每个采集的数据一个唯一性识别码,且该识别码能够基于既定的规则进行自动编码(比如按照既定的自然序数进行递增)唯一性识别码能够明确区分数据,避免混淆,同时能够最大限度的避免“孤儿”数据的产生,识别数据删除的行为,同时有助于数据统计等。
举例1:美国公司Revvity的 Envision多功能酶标仪对于每一个采集的result的分配一个唯一的“Assay ID”举例2:某些系统可能存在可以删除电子数据,或者可以不强制保存电子数据,也无法从技术上进行控制,同时审计追踪也无法记录删除数据的操作,如果此时系统能够支持电子数据的唯一性识别码,那么此问题将迎刃而解了。
DS06: 系统审计追踪是否记录数据的属性:包括但不限于保存的路径,数据名称,数据的唯一性识别码,数据采集者等?良好的审计追踪或者日志,应该记录电子数据保存的信息,包括电子数据保存的详细路径,数据的名称,数据的唯一性标识码(如果系统支持提供),以及数据的采集者信息。
数据采集者和审核人员能够通过搜索关键词快速的获取数据的审计追踪信息DS07:系统是否有数据运行日志完整地记录数据保存的路径和名称等信息?数据运行日志是指专门记录原始数据的日志列表,列表中能够明确所有的采集数据信息(包括采集者,采集的路径和数据名称等信息。
)非数据库的系统设计数据运行日志有助于进行数据统计工作DS08: 系统是否支持有利于数据统计工作?良好的计算机化系统应该设计成为有利于数据统计工作,因为我们数据采集量多到一定程度后,往往会有数据统计的需求。
比如年度统计某数据采集者的数据采集量;比如年度质量回顾时统一回顾每月数据采集量的趋势分析但是我们时常遇到计算机化系统的设计并不支持这种数据统计的要求,这在数据库系统中是比较常见的,有些网络版系统可能都无法快速的让人获取到某一天采集的数据量。
DS09: 系统是否支持电子数据保存路径设置禁止删除的文件夹保护?针对非数据库系统,数据的安全性至关重要,其中首要考虑的问题就是非管理员用户无法删除数据这依赖于电子数据保存路径需要设置禁止删除的文件夹保护,如果系统不支持该设置,则可能导致数据在采集过程中出现报错信息,而无法完成数据采集的流程。
同时也需要关注文件夹禁止删除的保护设置完毕后,是否会导致其他方面的影响,比如是否会导致数据存储的出现的额外操作,审计追踪的信息是否会有改变等DS10: 系统是否不支持覆盖数据?数据覆盖是指操作者将数据B存储时覆盖了已经存在的数据A导致数据A被数据B替换的过程,数据被覆盖后在原有的存储路径原数据将丢失。
数据覆盖可能的情况可以分为:Windows层面的同名文件的直接覆盖;使用应用软件同类型文件或者不同类型文件的同名文件覆盖如果系统支持数据覆盖的操作且没有识别到对应的数据覆盖风险而采集技术或者流程上的控制措施,那么很可能发生数据产生者无意中在操作中覆盖已经存在的数据而导致数据丢失的事件发生。
一般防止数据覆盖问题需要从Windows文件夹保护着手,考虑文件夹及其文件的删除保护,同时结合各个系统数据保存的权限和规律进行统一的风险识别和控制一直以来,原始数据覆盖现象相比于数据删除现象而言,在质量管理系统中都处于概念模糊,地位模糊,以及风险评估忽略的状态,而实际上这种情况对于非数据库的系统,其风险发生的概率是比较高的,所以了解Windows的权限和应用软件数据保存规律的前提条件下,做对应的挑战性测试和风险控制措施是非常有必要的。
DS11: 系统是否有防止删除原始数据的安全机制?删除数据后是否有发现的机制?删除数据是计算机化系统的敏感操作,一般情况下系统都应该设计有删除数据的权限,同时审计追踪应该设计成能够记录数据删除的操作DS12: 数据采集过程中,如果遭遇特殊情况是否可以最大限度不影响到数据保存,保证数据采集的持续性而不中断?
这种特殊情况包括但不限于:中断应用软件与系统的数据连接线,磁盘损坏,或者意外或者有计划性地断电或者断网,数据采集线中断或者松动,网络信号不好,电脑卡顿,环境的干扰(包括静电,电磁干扰,震动等可以导致数据采集中断的因素)等。
在对于业务持续性特别重要的系统或者需要长时间采集数据的系统(比如液相色谱仪,环境监系统,内毒素检测酶标仪等),该部分内容建议根据风险评估做出挑战性测试,明确可能的风险以及对应的可检测性方法和防范措施等尤其是针对客户端/服务器架构(C/S架构)的网络版系统,在客户端到服务器端的数据传输过程中需要考虑网络中断,软件意外关闭(比如其他账户登录Windows强制退出,或者用户直接执行关闭软件操作),重启电脑等意外情况发生时客户端数据是否能够持续采集,是否有缓存功能等,确保在意外情况解除时能够将客户端的数据传输至服务器端。
备注:需要注意的是自动保存的系统的数据自动保存规律可能并不如我们期待的那样采集完毕后就立即能够存储,尤其是针对数据采集时间周期比较长的系统,这时需要关注数据采集完毕到完全保存的这段时间的机制和规律,确保识别和消除可能的风险因素(这些因素包括网络中断你,软件关闭,电脑重启等等)
DS13: 是否有其他明确的影响数据保存的因素?针对特定的系统,尤其是现在的兴起的云存储系统,人工智能系统等,可能需要考虑额外的影响数据保存等的因素DS14:电子数据和纸质记录或者报告是否能够存在强索引关系?。
一般的纸质记录或者报告都会以其记录的电子数据产生的系统名称,系统的序列号,电脑名,电子数据路径和电子数据名称等查询到对应的电子数据但是反过来是否能够轻松做到呢?比如随机的查看一份数据,是否能够关联到对应的检测方案(能够通过查看电子数据快速地获取检测目的和具体信息等,反向地追踪到纸质记录和报告,可以快速地知道为什么会有该电子数据的源头。
)当然这并不完是计算机化系统设计端的事情,在数据命名管理等也可以强化这种双向的索引关系DS15: 网络版系统的服务器中存储的电子数据是否能够追溯到采集数据的客户端?网络版系统会保存来自各个客户端采集的电子数据,此时各采集电子数据的准确性等可能受到各个客户端的仪器设备的直接影响,为避免混淆,如何确认服务器的电子数据和各个客户端的对应关系至关重要。
网络版系统的电子数据建议直接和各个客户端的唯一性识别码进行关联,可以方便地体现电子数据来源于哪个客户端建议最好该唯一编码具有不可修改的性质,比如仪器序列号,或者自定义的仪器设备编号,客户端电脑的ip地址或者电脑名等信息。
同时该电子数据的报告建议体现客户端的唯一识别码等信息,同时为便于统计和分析,可以通过客户端唯一识别码进行统计等功能某些网络版系统的电子数据可能无法追溯至客户端的信息,需要进行风险评估采取适当的流程控制措施,比如可以通过流程规定在数据采集时输入对应的仪器唯一性识别码,同时加强复核的控制措施等。
DS16:系统是否支持在数据发生采集的活动后强制保存数据?系统应该设计成为数据发生采集的活动后强制保存数据可以设定预定的保存路径,自动保存数据或者是在采集数据前强制先保存数据等策略如果系统设计为需要在数据采集完成后由采集者点击保存按钮保存数据,不点击保存按钮数据将不会保存,那么系统就会存在较高的数据完整性的风险。
DS17:系统数据之间是否存在关联性?计算机化系统保存的数据之间可能存在对应的关联性,这种关联性对于数据采集方法/分析方法,结果或者查看等都会有影响,需要关注这种数据之间可能的关联性,在数据审核,数据备份与恢复时确保关联性可以得到满足。
DS18: 数据生命周期中是否明确数据保存的数据流?电子数据一旦被采集,可能还会发生数据的编辑,处理,复制,另存为新数据,导出和导入到新系统或者同系统,移动,备份等需求【2】,直到数据真正的消亡的整个数据生命周期中可能因为各种需求而产生变化,这种变化可能会存在多次的数据重新保存的行为。
系统应该设计成电子数据的值及其含义在变化的保存过程中保持一致性,同时在整个数据流中数据的保存变化有对应的审计追踪或者ID等,保持其在整个数据生命周期中的可追溯性综上所述,我们在使用各种各样的计算机化系统处理事务时,需要关注数据保存的基本要素, 如果能够明确数据的存储位置,是否自动和强制保存数据,是否强制保存的路径,电子数据是否被分配唯一性识别码,审计追踪是否记录数据保存的信息,以及数据是否能够被覆盖,被删除,数据采集的持续性,电子数据和纸质记录的双向索引,服务器数据和客户端的关系,数据之间的关联性等,同时需要在整个数据生命周期中明确数据保存的数据流,则对于计算机化系统在设计,认识,使用和管理的改进上或许可以做得更加完美和可靠。
则我们就能够基本肯定我们已经掌握了正在使用的计算机化系统的电子数据,就像我们知道我们的手机和笔记本电脑存放在哪里一样,并且好好保管它注释和参考文件:【1】:关于Molecular Devices 公司Softmax Pro软件可以参见其官方软件的说明:。
https://www.moleculardevices.com.cn/, 该官方文件有对GxP 合规性解决方案 – 确保 GMP/GLP 实验室的数据完整性和合规性的详细说明【2】:马义岭和郭永学主编《制药设备与工艺验证》,化学工业出版社,2019年08月第1版本。
这是制药工程和药学类本科专业设置的第一本验证相关的本科教材,其在3.2.2章节中有介绍对应的数据生命周期修订历史版本01(20240406):此文章主要是为明确日常复杂和丰富的计算机化系统的电子数据的存储而写的,这个问题可能很复杂,因为现在的数据很容易被各种方式进行采集,而我们并不清楚我们的数据去哪里了,同时针对医药健康领域,我们也需要每天采集大量的电子数据,基于自我的经验总结,遂形成了这篇文章。
这篇文件更加适用于医药制造等受到法律法规强监管的领域版本02(20240417):在实践中明确完善了DS05的内容,同时新增DS14和DS15的内容版本03(20240615):在实践中遇到数据采集中断,数据库系统与非数据库系统的区分等案例,故补充DS01和DS12等的描述。
同时为了明确该文章的主题,将文章题目从“我们的电子数据保存在哪里”修改为“计算机化系统的数据保存”版本04(20240706):补充DS02和DS03等关于数据存储和数据自动保存方面的内容这份文件更加适用于封闭的计算机化系统,对于开放的现在以手机APP为主的系统的数据存储将另外撰文进行描述,以契合“我们的电子数据保存在哪里”的主题。
后续将针对具体的计算化系统进行实际的讨论和分析,以期理论和实践结合,优化该主题的理论知识版本05(20240720):根据经验补充关于数据覆盖(DS10)的更加详细的内容,以及网络版系统中数据采集和传输的内容(DS12)。
同时考虑到数据采集后还有可能不保存,故新增DS16的要求;考虑到数据之间还可能存在关联,故新增DS17;引入“数据生命周期”的概念,开始从数据生命周期的角度看待计算机化系统的数据保存,故新增DS18.版本06(20240817):根据近期审计经验,优化和补充DS15方面关于网络版系统服务器端和客户端端数据关系的描述。
根据近期遇到的某数据库自动保存系统出现的故障案例的经验,补充和完善DS03和DS12的描述编码和版本:XXXX001-V06
亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。