建设单位:
四川川投智胜数字科技有限公司(原称:四川川大智胜系统集成有限公司)
建设背景:
数据是文化和旅游的新生产要素,随着人工智能技术的快速发展,文旅行业面临着数据治理的挑战与机遇,传统数据治理体系难以满足AI应用对数据质量、字段丰富度、数据分布和实时性的要求,非结构化数据在企业内数据总量占比极高,价值长期未得到充分挖掘,导致AI应用落地效果受限。为提升AI应用质效,川投数科构建了面向人工智能应用的“AI文旅高质量数据集”,实现数据的高效治理与价值化。
解决方案:
川投数科深耕文旅行业十余年,参与了青城山—都江堰等智慧景区、乐山全域旅游、天府旅游名县及“智游天府”平台等智慧旅游项目,积累了丰富的行业数据与经验。面对文旅行业个性化服务不足、市场竞争加剧等挑战,秉承提升文旅行业的服务水平与运营效率的理念,川投数科致力于构建AI文旅高质量数据集,探索AI大模型的应用,提供数据驱动的创新解决方案。
在数据集建设过程中,川投数科与四川大学紧密合作,采用产学研结合的模式,充分发挥各自优势,研发了针对文旅多模态数据特点的智能分析与融合技术,大幅提升了AI模型对图像、音频、视频等异构数据的理解能力。同时构建文旅行业知识图谱,挖掘和提炼行业核心知识体系,为大模型提供了扎实的知识支持。
川投数科依托已有的文旅云平台与业务积累,梳理并沉淀文旅行业数据集,采集了大量如文旅相关出版物、地方志、博物馆解说音频等,涵盖历史文化、民俗风情、人文艺术等多个领域的非结构化数据来源,累计整合了超过20TB的非结构化数据,包括3TB的文本、12TB的图片和5TB的音频数据,为文旅大模型的建设提供了坚实的数据基础。
图1 数据治理采用产学研合作模式
图2 川投数科文旅云平台
创新点:
一是多源异构数据融合。整合来自互联网、出版物等多源异构数据,为AI应用提供丰富、多元的数据基础。
二是定制数据治理工具。开发专用的数据治理软件工具和平台,提高数据治理质效,满足AI应用对数据的高标准要求。
三是数据安全与合规。严格遵守国家数据安全与隐私保护法律法规,建立完善的数据安全管理体系,确保数据合规使用。
应用成效:
一是数据成果显著。成功构建了包含文化保护场馆、藏品/文物、旅游资源等多维度的高质量数据集,数据量庞大且结构清晰,为AI应用提供了坚实的数据支撑。目前采集了6183家博物馆及345个国家级5A级景区、245个国家级风景名胜区、678个西南A级景区的相关信息。
二是应用成果丰富。基于高质量数据集,开发了智慧数字人、AI语音交互、时空伴游数字人等应用。智慧数字人基于AI文旅行业大模型和通用大模型,结合XR虚实融合技术,以旅行伴侣的形象为用户提供多形态的展示形式;AI语音交互提升了用户与文旅服务的互动性;时空伴游数字人则为游客提供个性化的行程智能规划、交互导览、日程管理等全方位的智能服务。
三是模式成果突出。建立了以应用为导向,产品为抓手,数据合作共享的数据治理模式,促进了文旅行业数据资源的共同开发与利用。通过与宣传部、文旅厅、文物局等政府部门合作,推动了共性关键技术研发、AI文旅大模型建设、文化大数据中心运营等,赋能文旅行业数字化转型。
专家点评:
该AI文旅高质量数据集的建设在文旅行业数据治理领域具有重要的创新意义和实践价值。建设团队准确把握了文旅行业数据治理的痛点和AI应用的需求,构建了科学合理的工作架构,实现了多源异构数据的高效融合与治理,通过开发定制化的数据治理工具,提高了数据处理的自动化和智能化水平,为AI应用提供了高质量的数据基础。同时,在数据隐私安全与合规方面也做了充分的考虑和保障,符合当前数据安全法规的要求。该数据集不仅推动了文旅行业的数字化转型,也为其他行业的数据治理工作提供了有益的借鉴和参考。