출처: https://nanonets.com/blog/document-parsing/

상향식.. 하향식 파싱.. 등등 문맥적 의미는 알겠으나 아직까지는 너무 어려우므로,
DOM트리 구조 만이라도 제대로 알아두자.

파싱(parsing)은 구문 분석이라고 생각하면 된다고 한다.
문장이 이루고 있는 구성 성분을 분해하고 분해된 성분의 위계 관계를 분석하여 구조를 결정하는 것이다.
데이터를 분해 분석하여 원하는 형태로 조립하고 다시 빼내는 프로그램을 말한다.
웹상에서 주어진 정보를 내가 원하는 형태로 가공하여 서버에서 불러들이는 것이다.

각 문서를 렌더링 엔진 내에서 사용할 수 있도록 토큰(token)을 기반으로 분석하여
코드 구조로 변환하는 것을 의미한다. 준수하는 구문 규칙과 구조를 기반으로 하여
노드 트리를 생성하는데 이것이 파싱의 결과이며 파스트리(parse tree)라고 한다.

예를 들어 브라우저는 HTML 마크업을 DOM트리로 파싱하며, HTML 파싱 문법은 W3C로 의해
정의되고 있으며, HTML에서 토큰시작 태그, 종료 태그, 속성 이름과 속성 값을 말한다.

HTML은 일반적인 하향식 혹은 상향식 파서로는 파싱이 되지 않아 브라우저는
HTML 파싱을 위해 별도의 파서를 생성한다.


Resources

  • https://nanonets.com/blog/document-parsing/

Leave a Reply

Your email address will not be published. Required fields are marked *