悬赏问答

关于编程提取酒店详情信息的求助
我来回答
悬赏300金钱 未解决
本帖最后由 st800820 于 2025-5-20 10:24 编辑

最近需要打电话向酒店介绍产品寻求合作,但人工采集电话信息特别麻烦,请万能的群友看有没有能通过编程实现的办法,谢谢!以下是介绍,如果违反群规,请提醒我删帖


1.打开chrome浏览器,完全打开后,在查找酒店搜索框输入需要搜集的城市名称后点击搜索
2.弹窗询问用户当前页面是否需要登陆操作,如完成,请点击"继续采集“后继续运行下面的动作

3.检测到用户点击"继续采集“后,模拟人工向下滚动鼠标加载列表,直到检测到下方出现”搜索更多酒店按钮“:
搜索更多酒店xpath: //*[@id="ibu_hotel_container"]/div/section/div[2]/ul/div[2]/div/span
搜索更多酒店css选择器: #ibu_hotel_container > div > section > div.list-content > ul > div.list-btn-more > div > span
4.点击该按钮,然后模拟人工向下滚动鼠标加载列表,再次检测到”搜索更多酒店按钮“后继续点击,然后模拟人工向下滚动鼠标加载列表
5.重新点击”搜索更多酒店按钮“和模拟人工向下滚动鼠标加载列表动作,直到检测不到”搜索更多酒店按钮“后,弹窗提示:酒店列表加载完毕,请点击“采集酒店详情”继续,并出现120秒倒计时,如果2分钟内未检测到人工点击该按钮,则自动进入下一步骤。
6.逐个打开列表中的酒店,
其中:列表中酒店的xpath://*[@id="ibu_hotel_container"]/div/section/div[2]/ul/li[5]/div/div[2]/div[1]/div[1]/div/span[1]
或者 CSS 选择器:#ibu_hotel_container > div > section > div.list-content > ul > li:nth-child(5) > div > div.right-card > div.hotel-info > div.hotel-head.mgb-6 > div > span.hotelName
7.在新打开的酒店详情页面中提取需要的信息,主要包括:酒店名称、地址、开业时间、客房数、酒店电话
相关页面元素的xpath:
酒店名称://*[@id="ibu-hotel-detail-head"]/div[1]/div[1]/div[1]/h1
地址://*[@id="ibu-hotel-detail-head"]/div[1]/div[1]/div[2]/div[1]/span/span[1]
开业时间://*[@id="detail-hotel-description"]/div[2]/div/div[1]/ul/li[1]
客房数://*[@id="detail-hotel-description"]/div[2]/div/div[1]/ul/li[3]
酒店电话://*[@id="detail-hotel-description"]/div[2]/div/div[1]/div/div[2]/div
相关页面元素的 CSS 选择器:
酒店名称:#ibu-hotel-detail-head > div.detail-headline_container > div.detail-headline_base > div.detail-headline_title > h1
地址:#ibu-hotel-detail-head > div.detail-headline_container > div.detail-headline_base > div.detail-headline_address > div.detail-headline_position > span > span.detail-headline_position_text
开业时间:#detail-hotel-description > div.m-hotel-desc > div > div.m-hoteldesc_basic.basicInfo > ul > li:nth-child(1)
客房数:#detail-hotel-description > div.m-hotel-desc > div > div.m-hoteldesc_basic.basicInfo > ul > li:nth-child(2)
酒店电话:#detail-hotel-description > div.m-hotel-desc > div > div.m-hoteldesc_basic.basicInfo > div > div:nth-child(2) > div
8.把搜集的所有信息导入到以采集开始时间命名的csv表格中
9.采集完该酒店后,关闭当前酒店详情页面,继续打开列表中的下一家酒店,然后重新完成第7步采集酒店详情信息和第8步将采集信息追加写入表格中的动作
10.检测到列表中的酒店都采集过后,弹窗提示采集完成,并显示采集用时、采集家数等详情。弹窗中有点击“退出”的按钮,点击后退出该程序。
情况说明:
11.chrome已加入环境变量 ,地址:

"C:\chromedriver-win64\chromedriver.exe"
"C:\Program Files\Google\Chrome\Application\chrome.exe"
说明:
12日志功能,以排查问题,记录完整操作流水
13.由于脚本运行中页面会发生变化 ,请设计一个悬浮窗,提示每个环节的操作,通过与人工互动,增强脚本运行的可靠性
14.本人初学,以上xpath和css地址不确实提取的是否正确


倒序浏览 看全部 全部回复
暂无回复,快来抢沙发
回复 收藏 转播 分享 淘帖