Sitemap
Sitemap 이란?
google, Naver 등의 검색 엔진에서 사이트를 포괄적으로 색인하도록 하는 파일이다. 기본적으로는 URL이 나열된 파일이라고 생각하면 된다. 봇은 이 파일을 바탕으로 사이트를 순회하게 된다.
컨텐츠의 타입이나 갱신 빈도 등을 지정할 수 있지만, 가장 중요한 것은 sitemap.xml
의 있는 위치이다. sitemap.xml
이하의 도메인의 URL만이 크롤링되므로 설치하는 장소에 주의할 필요가 있다. 기본적으로는 루트에 위치하는 것이 좋다.
Sitemap XML 형식
<?xml version="1.0" encoding="UTF-8"?>
<urlset>
<url>
<loc>https://www.devkuma.com/docs/java/static/</loc>
<lastmod>2022-04-03T20:41:00+09:00</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
태그 | 필수/선택 | 설명 |
---|---|---|
<urlset> |
필수 | 전체를 둘러싸는 태그로, 현재의 프로토콜 표준을 참조. |
<url> |
필수 | |
<loc> |
필수 | 페이지의 URL. 마지막에 슬래시를 포함해야 하며 값은 2,048자 이하로 지정해야 한다. |
<lastmod> |
선택 | 파일의 마지막 업데이트 날짜. |
<changefreq> |
선택 | 페이지 업데이트 빈도. |
<priority> |
선택 | URL 우선 순위. 0.0 ~ 1.0의 값을 지정할 수 있다. 기본값은 0.5. 사이트의 모든 URL에 높은 우선 순위를 설정하지 말아야 한다. |
페이지 업데이트 빈도(changefreq) 목록
- always : 액세스할 때마다 내용이 업데이트됨
- hourly : 1시간에 1회 이하
- daily : 하루에 한 번 이상
- weekly : 1주에 1회 이상
- monthly : 1월에 1회 이상
- yearly : 1년에 한 번 이상
- never : 정기적으로 크롤링됨(업데이트하지 않아도 되는 페이지)
여러 Sitemap 파일을 사용하는 경우
URL이 50,000 이상이 되면, 복수의 Sitemap이 필요하게 된다. 그런 경우 사이트 맵 인덱스 파일을 만들고 사이트 맵이 여러 개 있다는 것을 크롤러에 알린다.
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.devkuma.com/sitemap1.xml.gz</loc>
<lastmod>2022-12-06T01:57:17+09:00</lastmod>
</sitemap>
<sitemap>
<loc>https://www.devkuma.com/sitemap2.xml.gz</loc>
<lastmod>2021-01-01</lastmod>
</sitemap>
</sitemapindex>
태그 | 필수/선택 | 설명 |
---|---|---|
<loc> |
필수 | Sitemap 파일 이름 |
<lastmod> |
선택 | 파일의 마지막 업데이트 날짜 |
참고
최종 수정 : 2024-04-23