一段话总结

旅行规划耗时耗力,本文提出To the Globe(TTG)实时演示系统,它结合大语言模型(LLM)与混合整数线性规划(MILP)求解器,将用户自然语言请求转为符号形式,进而生成最优旅行行程。系统开发了合成数据管道用于训练,在自动评估中,指令翻译器的精确匹配准确率达92.0%(约束解码) ,生成行程成本与最优成本比为0.979;在用户评估中,净推荐值(NPS)达35 - 40% 。未来将探索多轮对话、个性化及端到端可训练管道来提升用户体验。


## **TTG系统概述**

- 结合LLM与MILP求解器处理自然语言输入
- 5秒内输出最优行程并可视化展示
## **系统方法**

- 生成238k训练和29.8k测试样本,经筛选得173.7k训练和21.8k测试样本
- 用SCIP构建组合求解器,设置多种约束条件
## **实验评估**

- 约束解码下精确匹配准确率92.0%,生成JSON有效率100%
- 整体系统响应时间约5秒,模型推理占81.3%计算时间
- 满意度、价值和效率问题的NPS分别为40.0、35.1和36.9
## **未来工作**

- 探索多轮对话提升交互体验
- 实现个性化满足多样需求
- 开发端到端可训练管道增强适应性

详细总结

旅行规划是一项复杂且耗时的任务,需要考虑众多相互关联的约束条件。本文提出的To the Globe(TTG)系统旨在解决这一问题,它能根据用户的自然语言请求快速生成最优旅行行程。

  1. 相关工作

    • LLM推理规划:训练LLM进行推理和规划任务颇具挑战,现有方法虽能提升其在复杂问题中的推理能力,但无法保证可行性和最优性,且难以理解其推理失败模式。
    • LLM与求解器混合系统:已有研究探索将符号求解器与LLM结合解决旅行规划问题,但TTG专注于多日现实旅行规划,使用JSON格式作为符号规范,进行模型微调并开展全面性能评估。
  2. TTG系统概述

    • 系统架构:采用混合设计,结合LLM和符号求解器,用户通过前端界面输入自然语言请求,系统输出满足约束且最优的行程,并提供可视化展示。
    • 工作流程:包含推理和训练两部分。推理时,用微调的LLM将用户自然语言请求转为MILP求解器的符号描述,求解器找到最优解后以自然语言返回行程。训练时,由旅行生成器生成数据,指令翻译器将JSON格式请求转为自然语言再转回符号形式,旅行求解器求解估计的符号请求。
  3. 系统方法

    • 符号旅行生成器:创建自己的旅行生成器,考虑多种变量生成旅行请求和相应航班、酒店信息。生成238k训练样本和29.8k测试样本,因符号表示与生成内容存在不一致,筛选后保留173.7k训练样本和21.8k测试样本。
    • 旅行求解器:使用SCIP构建组合求解器,将旅行规划问题转化为MILP问题求解。通过设置常识约束、航班约束和酒店约束,确保生成的行程可行。
  4. 实验评估

    • 自动评估:通过自一致性评估指令翻译器生成的符号形式质量,约束解码下精确匹配准确率达92.0%,生成的JSON有效率为100%;系统生成的行程成本与最优成本的比值为0.979。
    • 效率评估:TTG系统主要瓶颈是模型推理成本,占计算时间的81.3%,但整体能实时响应。
    • 用户评估:通过在线调查和定性访谈收集用户反馈,满意度、价值和效率问题的净推荐值(NPS)分别为40.0、35.1和36.9。用户认为价格和首选旅行时间是重要标准,还提出应优化行程优先级、灵活性、个性化及增强对AI决策的信任。
  5. 未来工作:未来将探索多轮对话和个性化功能,进一步提升用户体验,并开发端到端可训练管道,使系统更具适应性。

关键问题

  1. TTG系统如何保证生成行程的可行性和最优性?

    • TTG系统使用混合架构,通过微调的LLM将自然语言请求转换为符号形式,再利用MILP求解器解决组合优化问题。在求解过程中,设置了常识约束、航班约束和酒店约束等多种约束条件,确保生成的行程满足所有约束,从而保证可行性;通过求解器找到使成本函数最小的解,实现行程的最优性。
  2. TTG系统在自动评估中的关键指标表现如何?

    • 在自动评估中,TTG系统的指令翻译器在约束解码下精确匹配准确率达到92.0%,生成的内容作为JSON的有效率为100%;当生成的约束与真实约束不完全匹配时,系统生成行程的成本与最优成本的比值为0.726±0.0234,整体21.8k测试样本上该比值的均值为0.979±0.002 ,非常接近最优解1。
  3. 用户评估对TTG系统的改进方向有哪些启示?

    • 用户评估表明,价格和首选旅行时间是用户评估行程的重要标准。此外,用户提出应优化行程的优先级,如先选航班再订酒店;增强灵活性,便于更改行程细节并进行比较;实现个性化,满足不同用户的多样偏好和特殊需求;提高对AI决策的信任度,提供更便捷的工具可视化信息,让用户能验证决策的可行性、最优性和适用性。