php

日本語ページをXPATHでスクレイピング

php

PHPでXPATHを使ったスクレイピングをするには、基本的にはDOMDocumentとDOMXPathを使えばいいのだが、DOMDocumentにutf-8をISO-8859-1と誤認識してしまうバグがあるようだ。ISO-8859-1の対応範囲内の言語のサイトならUTF-8をISO-8859-1に変換してからDOMDocu…