Penerapan Sentence-Bert dan Cosine Similarity untuk Pencarian Semantik Dokumen Skripsi dalam Format PDF
##plugins.themes.academic_pro.article.main##
Published
Oct 29, 2025
Abstract
Pencarian dokumen skripsi pada repositori digital umumnya masih terbatas pada pencocokan kata kunci sehingga sering menghasilkan temuan yang kurang relevan. Berdasarkan permasalahan tersebut, penelitian ini bertujuan untuk membangun sistem pencarian semantik dokumen skripsi dalam format PDF dengan memanfaatkan Sentence-BERT (SBERT) dan metode Cosine Similarity yang dipadukan dengan ontologi untuk memperkaya pemahaman makna query. Sistem ini dirancang agar mampu memahami maksud pengguna secara lebih mendalam, baik ketika query diberikan dalam bentuk kata, frasa, kalimat, maupun paragraf. Tahapan penelitian meliputi ekstraksi teks dari dokumen PDF, preprocessing, tokenisasi WordPiece, serta pembentukan vektor representasi kalimat menggunakan SBERT. Skor relevansi dihitung dengan kombinasi bobot cosine similarity (0,7) dan ontologi (0,3) sehingga sistem dapat menampilkan dokumen dengan makna paling mendekati query. Hasil pengujian menunjukkan bahwa sistem mampu memberikan hasil pencarian yang relevan dengan nilai Mean Reciprocal Rank (MRR) konsisten sebesar 1.0 pada semua jenis query. Nilai Precision rata-rata mencapai 0,80 dan Recall rata-rata sebesar 0,92. Perbandingan dengan metode Keyword Matching menunjukkan bahwa metode semantik lebih unggul dengan Precision rata-rata 0,88 dan Recall 0,65 dibandingkan keyword yang hanya mencapai Precision 0,24 dan Recall 0,12. Temuan ini membuktikan bahwa sistem semantik efektif dalam menempatkan dokumen paling relevan di peringkat teratas dan lebih unggul dibandingkan pencarian berbasis kata kunci, meskipun cakupan hasil masih perlu ditingkatkan melalui pengayaan ontologi dan perluasan dataset.
##plugins.themes.academic_pro.article.details##

This work is licensed under a Creative Commons Attribution 4.0 International License.
Hak Cipta :
Penulis yang mempublikasikan manuskripnya di jurnal ini menyetujui ketentuan berikut:
- Hak cipta pada setiap artikel adalah milik penulis.
- Penulis mengakui bahwa Ranah Research : Journal of Multidisciplinary Research and Development berhak menjadi yang pertama menerbitkan dengan lisensi Creative Commons Attribution 4.0 International (Attribution 4.0 International CC BY 4.0) .
- Penulis dapat mengirimkan artikel secara terpisah, mengatur distribusi non-eksklusif manuskrip yang telah diterbitkan dalam jurnal ini ke versi lain (misalnya, dikirim ke repositori institusi penulis, publikasi ke dalam buku, dll.), dengan mengakui bahwa manuskrip telah diterbitkan pertama kali di Ranah Research.
References
Business Analytics. (2023). Cosine Similarity Explained. Diakses pada 24 Maret 2025, dari https://businessanalytics.substack.com/p/cosine-similarity-explained
Dataiku. (2023, Mei 9). Semantic search: An overlooked NLP superpower. Dataiku Blog. Diakses pada 24 Maret 2025, dari https://blog.dataiku.com/semantic-search-an-overlooked-nlp-superpower.
GeeksforGeeks. (2024). Natural Language Processing Workflow. GeeksforGeeks. Diakses pada 24 Maret 2025, dari https://www.geeksforgeeks.org
Grinberg, M. (2018). Flask Web Development: Developing Web Applications with Python. O'Reilly Media.
Guo, J., Fan, Y., Ai, Q., & Croft, W. B. (2016). A Deep Relevance Matching Model for Ad-hoc Retrieval. Proceedings of the 25th ACM International Conference on Information and Knowledge Management.
Lattner, C., Adya, P., & Kumar, R. (2020). A Comparative Study of Code Editors for Python Development. International Journal of Software Engineering, 25(4), 312-329.
Lestari, I., & Pratama, B. (2024). Analisis Penggunaan Transformer-based Model dalam Sistem Pencarian Akademik. Jurnal Informatika dan Komputasi, 8(2), 45–60.
Mitra, B., & Craswell, N. (2018). An Introduction to Neural Information Retrieval. Foundations and Trends in Information Retrieval, 13(1), 1-126.
Nisha, K., Wahyuni, T., & Hayat, M. A. M. (2024). Pemeriksaan KTP Menggunakan Optical Character Recognition (OCR) dan Pengenalan Background serta Komponen KTP. Arus Jurnal Sains dan Teknologi, 2(2), 490-495
Nugroho, A., et al. (2023). Evaluasi Metode Cosine Similarity dalam Pencarian Dokumen Akademik. Jurnal Riset Teknologi Informasi, 7(3), 150–165.
Nur Oktavia, et al. (2024). Analisis Semantik dalam Tweet Buzzer Menggunakan Natural Language Processing. Jurnal Biikma Universitas Indonesia, 12(2), 45–67.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks. Journal of Computing and Applications, 45(3), 12–34.
Suryani, R., & Setiawan, D. (2024). Penerapan Pencarian Semantik dalam Sistem Informasi Akademik Berbasis Web. Jurnal Sistem dan Teknologi Informasi, 10(1), 120–135.
Tan, J., Wong, S., & Lee, C. (2022). The Impact of Code Editors on Developer Productivity. Journal of Computing and Software Development, 30(2), 187-202.
Wibawa, C., & Anggraeni, D. T. (2023). COMPARISON OF IMAGE SEGMENTATION METHOD IN IMAGE CHARACTER EXTRACTION PREPROCESSING USING OPTICAL CHARACTER RECOGNITION. Jurnal Teknik Informatika (JUTIF), 4(3), 583–589.
Zou, D., Li, S., Huang, Y., & Wu, C. (2021). A Comparison of Web Frameworks for Building RESTful APIs. Journal of Web Engineering, 20(3), 456-470.