Penerapan Sentence-Bert dan Cosine Similarity untuk Pencarian Semantik Dokumen Skripsi dalam Format PDF

##plugins.themes.academic_pro.article.main##

Muhammad Abdul Hafizh Fathuddin
Eka Prakarsa Mandyartha
Afina Lina Nurlaili

Abstract

Pencarian dokumen skripsi pada repositori digital umumnya masih terbatas pada pencocokan kata kunci sehingga sering menghasilkan temuan yang kurang relevan. Berdasarkan permasalahan tersebut, penelitian ini bertujuan untuk membangun sistem pencarian semantik dokumen skripsi dalam format PDF dengan memanfaatkan Sentence-BERT (SBERT) dan metode Cosine Similarity yang dipadukan dengan ontologi untuk memperkaya pemahaman makna query. Sistem ini dirancang agar mampu memahami maksud pengguna secara lebih mendalam, baik ketika query diberikan dalam bentuk kata, frasa, kalimat, maupun paragraf. Tahapan penelitian meliputi ekstraksi teks dari dokumen PDF, preprocessing, tokenisasi WordPiece, serta pembentukan vektor representasi kalimat menggunakan SBERT. Skor relevansi dihitung dengan kombinasi bobot cosine similarity (0,7) dan ontologi (0,3) sehingga sistem dapat menampilkan dokumen dengan makna paling mendekati query. Hasil pengujian menunjukkan bahwa sistem mampu memberikan hasil pencarian yang relevan dengan nilai Mean Reciprocal Rank (MRR) konsisten sebesar 1.0 pada semua jenis query. Nilai Precision rata-rata mencapai 0,80 dan Recall rata-rata sebesar 0,92. Perbandingan dengan metode Keyword Matching menunjukkan bahwa metode semantik lebih unggul dengan Precision rata-rata 0,88 dan Recall 0,65 dibandingkan keyword yang hanya mencapai Precision 0,24 dan Recall 0,12. Temuan ini membuktikan bahwa sistem semantik efektif dalam menempatkan dokumen paling relevan di peringkat teratas dan lebih unggul dibandingkan pencarian berbasis kata kunci, meskipun cakupan hasil masih perlu ditingkatkan melalui pengayaan ontologi dan perluasan dataset.

##plugins.themes.academic_pro.article.details##

How to Cite
Fathuddin, M. A. H., Mandyartha, E. P. and Nurlaili, A. L. (2025) “ Penerapan Sentence-Bert dan Cosine Similarity untuk Pencarian Semantik Dokumen Skripsi dalam Format PDF”, Ranah Research : Journal of Multidisciplinary Research and Development, 8(1), pp. 322-337. doi: 10.38035/rrj.v8i1.1865.

References

Amien, M. (2023). Perkembangan NLP dalam Bahasa Indonesia: Tinjauan dan Aplikasinya. Jurnal Teknologi dan Informatika Indonesia, 15(4), 78–92.
Business Analytics. (2023). Cosine Similarity Explained. Diakses pada 24 Maret 2025, dari https://businessanalytics.substack.com/p/cosine-similarity-explained
Dataiku. (2023, Mei 9). Semantic search: An overlooked NLP superpower. Dataiku Blog. Diakses pada 24 Maret 2025, dari https://blog.dataiku.com/semantic-search-an-overlooked-nlp-superpower.
GeeksforGeeks. (2024). Natural Language Processing Workflow. GeeksforGeeks. Diakses pada 24 Maret 2025, dari https://www.geeksforgeeks.org
Grinberg, M. (2018). Flask Web Development: Developing Web Applications with Python. O'Reilly Media.
Guo, J., Fan, Y., Ai, Q., & Croft, W. B. (2016). A Deep Relevance Matching Model for Ad-hoc Retrieval. Proceedings of the 25th ACM International Conference on Information and Knowledge Management.
Lattner, C., Adya, P., & Kumar, R. (2020). A Comparative Study of Code Editors for Python Development. International Journal of Software Engineering, 25(4), 312-329.
Lestari, I., & Pratama, B. (2024). Analisis Penggunaan Transformer-based Model dalam Sistem Pencarian Akademik. Jurnal Informatika dan Komputasi, 8(2), 45–60.
Mitra, B., & Craswell, N. (2018). An Introduction to Neural Information Retrieval. Foundations and Trends in Information Retrieval, 13(1), 1-126.
Nisha, K., Wahyuni, T., & Hayat, M. A. M. (2024). Pemeriksaan KTP Menggunakan Optical Character Recognition (OCR) dan Pengenalan Background serta Komponen KTP. Arus Jurnal Sains dan Teknologi, 2(2), 490-495
Nugroho, A., et al. (2023). Evaluasi Metode Cosine Similarity dalam Pencarian Dokumen Akademik. Jurnal Riset Teknologi Informasi, 7(3), 150–165.
Nur Oktavia, et al. (2024). Analisis Semantik dalam Tweet Buzzer Menggunakan Natural Language Processing. Jurnal Biikma Universitas Indonesia, 12(2), 45–67.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks. Journal of Computing and Applications, 45(3), 12–34.
Suryani, R., & Setiawan, D. (2024). Penerapan Pencarian Semantik dalam Sistem Informasi Akademik Berbasis Web. Jurnal Sistem dan Teknologi Informasi, 10(1), 120–135.
Tan, J., Wong, S., & Lee, C. (2022). The Impact of Code Editors on Developer Productivity. Journal of Computing and Software Development, 30(2), 187-202.
Wibawa, C., & Anggraeni, D. T. (2023). COMPARISON OF IMAGE SEGMENTATION METHOD IN IMAGE CHARACTER EXTRACTION PREPROCESSING USING OPTICAL CHARACTER RECOGNITION. Jurnal Teknik Informatika (JUTIF), 4(3), 583–589.
Zou, D., Li, S., Huang, Y., & Wu, C. (2021). A Comparison of Web Frameworks for Building RESTful APIs. Journal of Web Engineering, 20(3), 456-470.