第八届上海图书馆开放数据竞赛由上海图书馆(上海科学技术情报研究所)、国际科学技术信息理事会(International Council for Scientific and Technical Information)及上海市中心图书馆联合主办,并继续和上海开放数据创新应用大赛(SODA)在数据共通、赛程共融、导师共享、宣传共鸣和服务共建等五个方面开展合作。本届竞赛继续为参赛者提供更加丰富和海量的历史人文数据,并新增创意论文赛道。竞赛以“链汇古今,AI赋人文”为主题,面向全球征集优秀移动应用原型、创意及算法。
随着竞赛的举办以及竞赛影响力的扩大,越来越多的文化机构加入到了竞赛中。今年竞赛数据合作单位增至18个,分别是CADAL项目管理中心、中国人物传记资料库项目(CBDB)、复旦大学图书馆、广州搜韵文化发展有限公司、《全国报刊索引》编辑部、上海宋庆龄研究会、上海韬奋纪念馆、杭州弘雅科技有限公司、嘉兴市图书馆、南京图书馆、上海市静安区图书馆、上海市闵行区图书馆、上海市嘉定区图书馆、上海市金山区图书馆、上海市奉贤区图书馆、上海市崇明区图书馆、东方社区信息苑、苏州图书馆。这些数据合作单位为今年的竞赛数据池注入了大量的历史人文数据,形成了涵盖古籍、家谱、红色文献、红色旅游、老电影、盛宣怀档案、上海历史文化事件、邹韬奋相关文献、宋庆龄与中国共产党、南湖文献、南社诗笺、抗日战争、苏州人物、民国书刊、民俗文化、名人传记、诗词、艺术品、碑帖、流通数据、中文期刊论文编目、预约、网站用户行为等丰富内容的开放数据资源,数据总量达一亿五千万余条。继去年新增算法赛道后,竞赛今年还新增了创意论文赛道,鼓励参赛者在创新方面进行更多探索和尝试。
竞赛于4月23日世界读书日当天准时启动。竞赛组委会在传统宣传方式之外,继续进一步拓展网络宣传渠道,利用微信、微博、抖音、哔哩哔哩等新媒体平台进行多方位宣传,起到了显著的宣传效果。截至7月7日竞赛报名结束,竞赛吸引了海内外众多对历史人文数据感兴趣的高等院校和科研院所的师生以及企业职员和数据爱好者,有来自美国、意大利、澳大利亚和国内28个省(自治区、直辖市)的共209支团队485人报名,相比2022年竞赛,报名团队数量和参赛人数分别增长了8%和3%。在校生参赛者占报名总人数的56.7%,主要来自国内的北京大学、清华大学、中国人民大学、复旦大学、西安交通大学、南京大学、武汉大学和中山大学等70所高校。国外的麻省理工学院、迪肯大学及库埃里兰中学的师生也有报名参赛。非在校生参赛者占报名总人数的43.3%,职业主要为IT从业人员、图书馆员、教师、设计师、医生、自由职业者等。
为进一步扩大上海图书馆开放数据竞赛的社会影响力,同时推动人工智能在图书馆及相关领域的研究和应用,本次竞赛于5至6月举办了学术宣讲活动。上海图书馆副馆长刘炜带领宣讲团队,先后赴中山大学、华南师范大学、上海大学、华东师范大学、清华大学、北京师范大学、北京理工大学、中国人民大学、南京图书馆、西安交通大学、长安大学、华中师范大学、武汉大学六地十二所高校及一家公共图书馆,以“学术讲座+竞赛宣讲”的形式进行宣讲。刘炜副馆长围绕图书馆、人工智能与开放数据做了题为《从Transformer到Terminator——在不确定中创造图书馆未来》《人工智能与开放数据服务》《链汇古今,AI赋人文》以及《AGI时代数字学术的范式转型》等多场报告,分享了VUCA时代下的发展趋势、AGI时代下的通用人工智能、大语言模型、数字资源的存储利用以及数字学术等内容。揭示了随着大语言模型带来的强大的信息加工、萃取、整合和生成能力,图书馆正面临着前所未有的挑战与机遇。会议期间,与会人员积极互动,就“开放数据与人工智能的关系”“馆员在人工智能时代如何作为”和“文物数字化”等问题进行了探讨。宣讲团队介绍了竞赛赛事、开放数据并邀请往届获奖团队进行了经验分享。竞赛约四分之一的报名者来自举办宣讲会的高校及图书馆。
竞赛培训会于7月4日在上海图书馆举行,并于腾讯会议和微信视频号进行线上直播,共有2400余人次的观众线下线上收看直播参与本次活动。培训当天,上海图书馆及各家竞赛数据提供单位依次介绍了本次竞赛的相关开放数据内容,并对参赛者的作品创意提供了指导。
应用开发类答辩评审于10月8日在上海图书馆举行,入围获奖的8支团队分别来自上海、江苏、四川、广东等省(直辖市),高校团队占63%。经过答辩最终确定了各个奖项的归属团队。
第八届上海图书馆开放数据竞赛整体于近日收官。三个赛道所有提交作品通过评审最终产生一等奖1名、最佳Web3应用奖1名、最佳创意奖1名、最佳设计奖1名、优胜奖4名、最佳古籍OCR识别算法奖2名、算法优胜奖4名、优秀创意论文奖5名、最佳人气奖1名以及人气奖7名。最佳家谱世系表识别算法奖及最佳创意论文奖空缺。
获得一等奖的“指望下一队”为来自南京大学的硕士研究生1人团队,他从剧院 、电影、演员和照片四个维度出发,搭建了一个中国电影数字平台《一千零一夜》。该网站通过历史重建提供了戏院数据的地理可视化展示,通过对影视片段的音视频处理与情感分析深入挖掘了电影的情感元素,借助知识图谱让用户与老演员进行虚拟互动,此外还探索了剧照风格迁移、AI绘画以及对话机器人等功能,兼具创意性和实用性。
“今秘阁”团队获得了最佳Web3应用奖,他们的作品微信小程序《古文通止》包含OCR识别手写汉字、LLM翻译文言文、成果铸成NFT等功能,利用AI计算机视觉、知识图谱检索、大语言模型交互、社交网络众包、Web 3确权等手段多层次多维度地帮助古文爱好者精准理解古文原意。
获得最佳创意奖的《歌宋·忆龄》南天尚音团队由中山大学和上海音乐学院的师生联合组成。该微信小程序将宋庆龄与中国福利会的红色历史材料与音乐创作相结合,搭建在线虚拟展厅,用生动的方式讲述历史,追忆先人、歌颂精神。
由四川大学四名本科生组成的“熠熠星光队”获得了本次的最佳设计奖。她们的作品《走近韬奋——风雨中的瞭望》是一款历史向文字冒险互动式游戏,玩家以第一视角“快穿”沉浸体验一名新闻学学子穿越到民国时期,见证邹韬奋不懈追求,全心全意为人民服务的一生,最后领悟“韬奋精神”的故事。
“彼采AI兮”团队的《基于深度学习的古籍文字检测与识别算法》获得了本次最佳古籍OCR识别算法奖。该算法通过数据预处理优化图像质量,引入DB模型进行文字检测,CRNN模型实现文字识别,注意力机制和高斯滤波处理增强模型性能,结合语言模型提升识别准确性。另一个最佳古籍OCR识别算法奖作品是“Shanghai-C57 ”团队的《基于pagenet的古籍识别》,该算法采用了AMPD+PageNet,结合传统算法以及微调后预训练网络的技术路线进行OCR汉字识别。
本次竞赛继续和上海开放数据创新应用大赛(SODA)在数据共通、赛程共融、导师共享、宣传共鸣和服务共建等五个方面开展合作。上图竞赛应用开发类赛道的前5名获奖团队将直通上海市开放数据创新应用大赛复赛。
经过多年的积累,上海图书馆开放数据应用开发竞赛已逐渐打响自身品牌,吸引到越来越多的数据创客和数据开放机构参与其中。竞赛让各行各业的数据爱好者齐聚,赋能人才、激活数据。对于占总参赛者将近半数的在校生而言,更是为他们之后踏上社会创新创业提供了实践的机会和良好的平台。信息技术的发展日新月异,信息化成为各个行业和领域的主战场。上海图书馆将会不断总结经验,探索更多举办大赛和服务参赛者的途径和方法。除了宣传和推广历史人文开放数据以外,竞赛更希望能激发参赛者的智慧与创意,以赛促研,将这些创意应用到公共文化机构的历史人文开放数据工作中,发挥数据的价值作用,引领和推动开放数据在公共文化领域的研究和应用。未来,上海图书馆开放数据竞赛将会进一步加强与各方的合作与交流,携手更多的文化机构,共同推动公共文化数据的应用和发展,鼓励更多的社会力量参与到公共文化数据的开发和应用中来。