¸üÐÂʱ¼ä:2021Äê05ÔÂ11ÈÕ16ʱ05·Ö À´Ô´:ÀÖÓãµç¾º ä¯ÀÀ´ÎÊý:
ÍøÕ¾µØÍ¼(SiteMap)£¬Ò²½ÐÕ¾µãµØÍ¼£¬ÊǰÑÍøÕ¾ÖÐËùÓÐÒ³ÃæµÄÁ´½Ó¶¼·ÅÔÚÍøÒ³ÉϵÄÍøÒ³¡£ËÑË÷Ö©ÖëºÜϲ»¶ÍøÕ¾µØÍ¼£¬SiteMapÊÇÍøÕ¾ËùÓÐÁ´½ÓµÄÈÝÆ÷¡£Ðí¶àÍøÕ¾Á¬Í¨µÄ²ã´Î±È½ÏÉ֩ÖëºÜÄÑ×¥µ½£¬ÍøÕ¾µØÍ¼¿ÉÒÔ·½±ãËÑË÷ÒýÇæÖ©Öë×¥È¡ÍøÕ¾Ò³Ãæ£¬Í¨¹ý×¥È¡ÍøÕ¾Ò³Ãæ£¬Çå³þÁ˽âÍøÕ¾µÄ½á¹¹£¬ÍøÕ¾µØÍ¼Ò»°ã±»ÃüÃûΪsitemap£¬ÎªËÑË÷ÒýÇæÖ©ÖëÖ¸Òý·½Ïò£¬Ôö¼Ó¶ÔÍøÕ¾ÖØÒªÄÚÈÝÒ³ÃæµÄÊÕ¼¡£
ÍøÕ¾µØÍ¼¸ñʽһ°ãÊÇ.xml¸ñʽµÄ¾Ó¶à£¬ÄÇôÈçºÎ½«.xmlÎļþתΪ.txt¸ñÊ½ÄØ?ÏÂÃæÎÒÃÇͨ¹ýPythonÀ´ÊµÏÖ¡£
# µ¼ÈërequestsÄ£¿é£¬ÓÃÓÚ»ñÈ¡ÍøÕ¾µØÍ¼Ô´Âë
import requests
# µ¼ÈëÕýÔò±í´ïʽģ¿é£¬ÓÃÓÚÔÚxmlÍøÕ¾µØÍ¼ÖлñÈ¡Á´½ÓµØÖ·
import re
# »ñÈ¡ÀÖÓãµç¾ºÍøÕ¾µØÍ¼Ô´Âë
sitemap_xml = requests.get('http://www.itcast.cn/sitemap/sitemap.xml').text
# ʹÓÃÕýÔò±í´ïʽƥÅäÍøÕ¾µØÍ¼ÖеÄÁ´½Ó
url = re.findall(r'<loc>(.*)</loc>', sitemap_xml)
# ʹÓÃjoin()º¯ÊýÔÚÿÌõÁ´½ÓÇ®Ç°Ãæ¼Ó¸ö»»Ðзû
url_line = '\n'.join(str(url_one) for url_one in url)
# ½«»ñÈ¡µÄÁ´½Ó±£´æÎªsitemap.xml
open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)

²ÂÄãϲ»¶£º
ÅÀ³æÊʺÏʹÓÃMysql»¹ÊÇMongdb£¿
ʲôÊÇ·Ö²¼Ê½ÅÀ³æ£¿·Ö²¼Ê½ÅÀ³æÊµÏÖ·½·¨
³£Óõķ´·´ÅÀ³æÓ¦¶Ô²ßÂÔ
PythonÅÀ³æ±»·â½ûÈçºÎÓ¦¶Ô·ÀÅÀ²ßÂÔ?
ÀÖÓãµç¾ºpythonÅàѵ¿Î³Ì
±±¾©Ð£Çø