Sitemap

Sitemap 이란?

google, Naver 등의 검색 엔진에서 사이트를 포괄적으로 색인하도록 하는 파일이다. 기본적으로는 URL이 나열된 파일이라고 생각하면 된다. 봇은 이 파일을 바탕으로 사이트를 순회하게 된다.

컨텐츠의 타입이나 갱신 빈도 등을 지정할 수 있지만, 가장 중요한 것은 sitemap.xml의 있는 위치이다. sitemap.xml 이하의 도메인의 URL만이 크롤링되므로 설치하는 장소에 주의할 필요가 있다. 기본적으로는 루트에 위치하는 것이 좋다.

Sitemap XML 형식

<?xml version="1.0" encoding="UTF-8"?>
<urlset>
  <url>
    <loc>https://www.devkuma.com/docs/java/static/</loc>
    <lastmod>2022-04-03T20:41:00+09:00</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
   </url>
</urlset>
태그 필수/선택 설명
<urlset> 필수 전체를 둘러싸는 태그로, 현재의 프로토콜 표준을 참조.
<url> 필수
<loc> 필수 페이지의 URL.
마지막에 슬래시를 포함해야 하며 값은 2,048자 이하로 지정해야 한다.
<lastmod> 선택 파일의 마지막 업데이트 날짜.
<changefreq> 선택 페이지 업데이트 빈도.
<priority> 선택 URL 우선 순위.
0.0 ~ 1.0의 값을 지정할 수 있다.
기본값은 0.5.
사이트의 모든 URL에 높은 우선 순위를 설정하지 말아야 한다.

페이지 업데이트 빈도(changefreq) 목록

  • always : 액세스할 때마다 내용이 업데이트됨
  • hourly : 1시간에 1회 이하
  • daily : 하루에 한 번 이상
  • weekly : 1주에 1회 이상
  • monthly : 1월에 1회 이상
  • yearly : 1년에 한 번 이상
  • never : 정기적으로 크롤링됨(업데이트하지 않아도 되는 페이지)

여러 Sitemap 파일을 사용하는 경우

URL이 50,000 이상이 되면, 복수의 Sitemap이 필요하게 된다. 그런 경우 사이트 맵 인덱스 파일을 만들고 사이트 맵이 여러 개 있다는 것을 크롤러에 알린다.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>https://www.devkuma.com/sitemap1.xml.gz</loc>
      <lastmod>2022-12-06T01:57:17+09:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://www.devkuma.com/sitemap2.xml.gz</loc>
      <lastmod>2021-01-01</lastmod>
   </sitemap>
</sitemapindex>
태그 필수/선택 설명
<loc> 필수 Sitemap 파일 이름
<lastmod> 선택 파일의 마지막 업데이트 날짜

참고




최종 수정 : 2024-04-23